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MATLAB 是 英文 MATrix LABoratory 的 缩写 ， 意 为 矩阵 实验 室 ， 其 产生 的 最 初 目 的 是 
为 软件 中 的 矩阵 运算 提供 方便 。 MATLAB 是 一 种 解释 性 语言 , 它 采 用 技术 计算 语言 , 几乎 
与 专业 领域 中 所 使 用 的 数学 表达 式 相 同 。 不 同 工 具 箱 中 的 专业 画 数 相对 独立 。 MATLAB 
中 的 基本 数据 元 素 是 矩阵， 它 提 供 了 各 种 矩阵 的 运算 和 操作 ， 并 有 较 强 的 绘图 能 力 ， 所 以 
得 以 广 为 流 传 ， 并 成 为 当今 国际 控制 界 应 用 最 广 、 备 受 人 们 喜爱 的 一 种 软件 环境 。 除 了 在 
控制 界 应 用 外 ， MATLAB 还 在 生物 医学 工程 、 信 和 号 分 析 、 语 言 处理 、 图 像 信号 处 理 、 雷 达 
工程 、 统 计 分 析 、 计 算 机 技术 和 数学 等 各 行 各 业 中 都 有 极其 广泛 的 应 用 。 

虽然 MATLAB 最 初 并 不 是 为 控制 理论 与 系统 的 设计 者 们 编写 的 , 但 是 MATLAB 软件 
一 出 现 就 很 快 引起 了 控制 界 研究 人 员 的 瞩目 ， 因 为 它 把 看 起 来 相当 繁琐 复杂 的 矩阵 操作 变 
得 简单 得 令 人 难以 置信 , 加 上 MATLAB 还 能 十 分 容易 地 绘制 各 种 精美 的 图 形 , 从 而 吸引 了 
世界 上 控制 界 的 许多 名 家 ， 在 自己 擅长 的 领域 编写 了 许多 具有 特殊 意义 的 MATLAB 工具 
箱 ， 这 又 反 过 来 使 得 MATLAB 更 加 具有 吸引 力 。 因 为 利用 MATLAB 及 其 工具 箱 所 得 结果 
是 相当 令 人 信服 的 ， 所 有 数字 及 其 数据 处 理 以 及 专业 公式 的 计算 都 是 基于 公认 的 算法 ， 由 
国际 上 各 有 关 的 顶尖 专家 编写 而 成 .至 今 为 止 ，MATLAB 环境 下 的 与 控制 界 有 关 的 工具 箱 
有 : 


控制 系统 工具 箱 (Control system ) 

频 域 系统 工具 箱 〈 Frequency Domain system ) 
鲁 棒 控制 工具 箱 (Robust control ) 
系统 辨识 工具 箱 〈 System identification ) 
信号 处 理工 具 箱 〈Signal processing ) 

最 优化 工具 箱 〈Optimization ) 
神经 网 络 工具 箱 (Neural network ) 
样 条 工具 箱 (Splines ) 
模糊 逻辑 工具 箱 (Fuzzy logic ) 

小 波 工具 箱 (Wavelet ) 

4 分 析 与 综合 工具 逢 〈A-analysis and synthesis ) 
非 线 性 控制 设计 工具 箱 (Nonlinear control design ) 


MATILAB 之 所 以 有 如 此 强大 的 功能 是 在 于 其 还 在 不 断 扩大 的 工具 箱 的 应 用 上 , 离开 了 
工具 箱 的 应 用 ，MATLAB 环境 下 的 操作 也 仅仅 是 简单 的 矩阵 运算 与 作 图 而 已 .而 要 想 利用 
工具 箱 为 已 服务 ， 必 须知 道 工 具 箱 能 做 什么 ? 它 的 理论 依据 是 什么 ? 它 能 解决 什么 问题 ? 
达到 什么 目的 ? 可 以 这 么 说 ， 每 一 个 工具 箱 都 有 一 门 专业 理论 作为 背景 的 。 它 是 为 这 个 理 


论 服 务 的 。 它 将 该 理论 中 所 涉及 到 的 公式 运算 、 方 程 求解 包括 复杂 的 和 矩阵 操作 ， 全 都 编写 
成 了 MATLAB 环境 下 的 子 程序 .设计 者 只 要 根据 自己 的 需要 ,通过 直接 调用 函数 名 ， 输 人 
变量 ， 运 行 另 数 ， 便 可 立即 得 到 结果 ， 从 而 大 大 节省 了 设计 人 员 的 编程 和 运算 求解 的 时 间 。 
因而 MATLAB 工具 箱 具 有 很 强 的 专门 知识 要 求 , 它 是 为 设计 人 员 在 运用 某 一 专门 理论 解决 
问题 时 所 提供 的 有 效 快 捷 的 工具 。 只 有 在 掌握 了 其 理论 的 基础 上 才能 够 明白 工具 箱 中 的 每 
一 个 函数 的 意义 ， 所 要 达到 的 目的 和 所 要 解决 的 问题 ， 才 能 够 正确 地 使 用 它们 ， 使 工具 箱 
很 好 地 为 自己 服务 . 

神经 网 络 工具 箱 正 是 MATLAB 环境 下 所 开发 出 来 的 许多 工具 箱 之 一 . 它 是 以 人 工 神经 
网 络 理论 为 基础 ， 用 MATLAB 语言 构造 出 典型 神经 网 络 的 激活 函数 ， 如 : SS 型 、 线 性 、 
竞争 层 、 饱 和 线性 等 激活 函数 。 使 设计 者 对 所 选 定 网 络 输出 的 计算 ， 变 成 对 激活 函数 的 调 
用 。 另 外 ,根据 各 种 典型 的 修正 网 络 权 值 的 规则 ， 加 上 网 络 的 训练 过 程 ,用 MATLAB 编写 
出 各 种 网 络 权 值 训练 的 子 程序 。 网 络 的 设计 者 则 可 以 根据 自己 的 需要 去 调用 工具 箱 中 有 关 
神经 网 络 的 设计 与 训练 的 程序 ， 使 自己 能 够 从 繁琐 的 编程 中 解脱 出 来 ， 集 中 精力 去 思考 问 
题 和 解决 问题 ， 从 而 提高 效率 和 解 题 质 量 . 

正 是 因为 MATLAB 环境 下 的 工具 箱 的 使 用 需要 较 强 的 专业 理论 知识 ,所 以 本 书 的 重点 
放 在 对 人 工 神经 网 络 理论 的 介绍 以 及 与 神经 网 络 工具 箱 应 用 的 结合 点 上 。 已 经 学 会 使 用 
MATLAB 语言 的 读者 ， 通 过 本 书 可 以 掌握 人 工 神 经 网 络 的 理论 ， 并 能 够 较 快 的 学 会 用 其 工 
具 箱 设计 出 网 络 来 解决 实际 问题 。 已 掌握 人 工 神经 网 络 理论 的 读者 ， 通 过 本 书 可 以 学 会 用 
MATLAB 设计 、 训 练 网 络 ， 使 理论 上 的 神经 网 络 开始 为 解决 实际 问题 服务 ， 从 理论 走向 实 
际 应 用 . 这 一 步 ， 如 果 没 有 MATLAB 的 帮助 ,实现 起 来 将 是 较为 困难 的 ,即使 对 于 已 有 过 
实际 应 用 的 读者 ， 通 过 本 书 也 可 以 从 中 了 解 到 许多 很 难 发 现 或 证 实 的 神经 网 络 特性 与 功 
能 ， 能 够 对 神经 网 络 有 更 进一步 的 理解 与 认识 ， 为 其 应 用 开拓 思路 ， 同 时 再 加 上 学 会 了 运 
用 MATLAB 环境 下 的 神经 网 络 工具 箱 ， 将 使 得 设计 者 如 虎 添 要 ， 有 能 力 设计 出 功能 更 强 、 
更 有 效 的 神经 网 络 . 

为 此 , 本 书 在 每 一 章 里 都 给 出 了 大 量 的 应 用 实例 ,并 全 部 采用 MATLAB 以 及 神经 网 络 
工具 箱 中 的 函数 来 求解 。 从 而 使 读 考 能 够 采用 工具 箱 中 的 函数 直接 设计 训练 网 络 ， 快 速 、 
准确 地 看 到 神经 网 络 解决 问题 的 能 力 以 及 各 种 网 络 的 特性 。 这 使 得 读 考 通过 本 书 的 学 习 ， 
在 理解 和 掌握 了 人 工 神经 网 络 理论 的 同时 ,又 可 以 运用 MATLAB 程序 来 设计 网 络 , 将 其 用 
于 解决 实际 问题 . 即使 对 于 目前 还 没有 MATLAB 及 其 工具 箱 的 读者 ,也 能 够 通过 本 书 的 学 
习 ， 掌 握 人 工 神经 网 络 的 各 类 模型 的 设计 与 应 用 。 由 于 书 中 有 各 种 图 形 以 及 性 能 的 对 比 ， 
使 读者 对 每 种 网 络 的 优 缺 点 有 更 加 透彻 地 了 解 . 在 掌握 了 工作 原理 之 后 ， 读 者 完全 可 以 自 
已 动手 采用 其 他 语言 编写 出 解决 自己 问题 的 软件 来 .不 过 这 要 比 采 用 MATLAB 工具 箱 的 编 
程 费时 得 多 . 

在 顺序 安排 上 ， 本 书 在 每 一 章 中 首先 介绍 网 络 构造 、 基 本 原理 、 学 习 规 则 以 及 训练 过 
程 。 然 后 通过 实例 、 图 解 分 析 或 比较 网 络 的 优点 及 其 局 限 性 ， 并 提出 解决 问题 的 方法 。 通 
过 和 读者 一 起 做 练习 和 观察 运行 MATLAB 程序 后 的 解答 ,从 中 了 解 和 掌握 人 工 神经 网 络 的 
特点 与 MATLAB 环境 下 神经 网 络 工具 箱 的 妙用 。. 

本 书 在 人 工 神经 网 络 理论 方面 重点 放 在 以 下 典型 网 络 模型 的 结构 特性 以 及 功能 的 介绍 
与 应 用 上 : 感知 器 (Perceptron )、 自 适应 线性 元 件 (Adaptive Linear Element )、 反 向 传播 


下 


网 络 (Back Propagation Networks)、 霍 普 菲 尔 德 网 络 ( Hopfield Networks)、 内 星 、 外 星 和 
科 荷 伦 学 习 规 则 (Instar, Outstar, Kohonen Learning Rules ) 、 自 组 织 竞争 网 络 (Self - 
organization Competition Networks )、 特 性 图 (Kohonen Feature Maps )、 对 传 网 络 〈 Counter 
Propagation Networks)、 自 适应 共振 理论 ( Adaptive Resonauce Theory )。 

关于 MATLAB 环境 下 的 基本 操作 、 语 句 结构 以 及 运算 ， 读 者 可 以 参考 有 关 MATLAB 
书籍 及 本 书 所 列 出 的 参考 文献 。 另 一 个 最 简单 的 办 法 ， 是 通过 MATLAB 环境 下 的 heip 命 
令 在 线 自学 . 在 这 里 ,我 们 只 是 对 所 用 到 的 神经 网 络 工具 箱 中 的 末 数 以 及 有 关 的 MATLAB 
编程 语言 的 用 法 在 适当 的 时 候 作 详细 具体 的 解释 。 

本 书 是 笔者 在 中 国 科 学 技术 大 学 教授 了 三 年 高 年 级 本 科 生 《人 工 神经 网 络 》 选 修 课 讲 
义 的 基础 上 ， 充 实 整理 后 完成 的 。 本 书 可 作为 计算 机 、 电 子 学 、 信 息 科 学 、 通 讯 、 控 制 等 
专业 的 高 年 级 本 科 生 、 研 究 生 以 及 其 他 专业 科技 人 员 学 习 神 经 网 络 或 学 习 MATLAB 及 其 
神经 网 络 工具 箱 时 的 教材 或 参考 书 。 由 于 笔者 水 平 有 限 ， 不 当 之 处 在 所 难免 敬 请 读者 批 
评 指教 
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第 一 章 概 述 
1.1 人 工 神经 网 络 概念 的 提出 


人 脑 是 宇宙 中 已 知 最 复杂 、 最 完善 和 最 有 效 的 信息 处 理 系 统 ， 是 生物 进化 的 最 高 产物 ， 
是 人 类 智能 、 思 维和 情绪 等 高 级 精神 活动 的 物质 基础 ， 也 是 人 类 认识 较 少 的 领域 之 一 。 长 
期 以 来 ， 人 们 不 断 地 通过 神经 学 、 生 物 学 、 心 理学 、 认 知 学 、 数 字 、 电 子 学 和 计算 机 科学 
等 一 系列 学 科 ， 对 神经 网 络 进行 分 析 和 研究 ， 企 图 揭示 人 脑 的 工作 机 理 ， 了 解 神经 系统 进 
行 信息 处 理 的 本 质 ， 并 通过 对 人 脑 结构 及 其 信息 处 理 方式 的 研究 ， 利 用 大 脑 神经 网 络 的 一 
些 特性 ， 设 计 出 具有 类 似 大 脑 某 些 功能 的 智能 系统 来 处 理 各 种 信息 ， 解 决 不 同 问题 。 

用 机 器 代替 人 脑 的 部 分 劳动 是 当今 科学 技术 发 展 的 重要 标志 。 计 算 机 就 是 采用 电子 元 
件 的 组 合 来 完成 人 脑 的 某 些 记忆 、 计 算 和 判断 功能 的 系统 。 现 代 计 算 机 中 每 个 电子 元 件 的 
计算 速度 为 纳 秒 ( 10? 秒 ) 级 ， 而 人 脑 中 每 个 神经 细胞 的 反应 时 间 只 有 毫秒 ( 103 秒 ) 级 ， 
然而 在 进行 诸如 记忆 回溯 、 语 言 理解 、 直 党 推理 、 图 像 识 别 等 决策 过 程 中 ， 人 脑 往往 只 需 
要 一 秒 钟 左右 的 时 间 就 可 以 完成 复杂 的 处 理 。 换 句 话 说 ， 脑 神经 细胞 做 出 决定 需要 的 运算 
不 超过 100 步 ， 范 德 曼 ( JA.Feldman ) 称 之 为 100 步 程序 长 度 。 显 然 ， 任 何 现代 串 行 计算 
机 决 不 可 能 在 100 步 运 算 中 完成 类 似 上 述 的 一 些 任 务 。 由 此 人 们 希望 去 追求 一 种 新 型 的 信 
号 处 理 系 统 ， 它 既 有 超越 人 的 计算 能 力 ， 又 有 类 似 于 人 的 识别 、 判 断 、 联 想 和 决策 的 能 力 . 

人 工 神经 网 络 〈( Artificial Neural Network， 简 称 ANN ) 正 是 在 人 类 对 其 大 脑 神经 网 络 
认识 理解 的 基础 上 人 工 构 造 的 能 够 实现 某 种 功能 的 神经 网 络 。 它 是 理论 化 的 人 脑 神经 网 络 
的 数学 模型 ， 是 基于 模仿 大 脑 神经 网 络 结构 和 功能 而 建立 的 一 种 信息 处 理 系统 。 它 实际 上 
是 由 大 量 简单 元 件 相互 连接 而 成 的 复杂 网 络 ， 具 有 高 度 的 非 线 性 ， 能 够 进行 复杂 的 逻辑 操 
作 和 非 线性 关系 实现 的 系统 。 

人 工 神 经 网 络 吸取 了 生物 神经 网 络 的 许多 优点 ， 因 而 有 其 固有 的 特点 : 

( 工 ) 高 度 的 并 行 性 

人 工 神经 网 络 是 由 许多 相同 的 简单 处 理 单元 并 联 组 合 而 成 ， 虽 然 每 个 单元 的 功能 简 
单 ， 但 大 量 简单 处 理 单元 的 并 行 活动 ， 使 其 对 信息 的 处 理 能 力 与 效果 惊人 . 

(2) 高 度 的 非 线性 全 局 作用 

人 工 神经 网 络 每 个 神经 元 接受 大 量 其 它 神经 元 的 输入 ， 并 通过 并 行 网 络 产生 输出 ， 影 
响 其 他 神经 元 。 网 络 之 间 的 这 种 互相 制约 和 互相 影响 ， 实 现 了 从 输入 状态 到 输出 状态 空间 
的 非 线性 映射 。 从 全 局 的 观点 来 看 ， 网 络 整体 性 能 不 是 网 络 局 部 性 能 的 简单 迭 加 ， 而 表现 
出 某 种 集体 性 的 行为 。 

(3) 良好 的 容错 性 与 联想 记忆 功能 

人 工 神经 网 络 通 过 自身 的 网 络 结构 能 够 实现 对 信息 的 记忆 。 而 所 记忆 的 信息 是 存储 在 
神经 元 之 间 的 权 值 中 。 从 单个 权 值 中 看 不 出 所 储存 的 信息 内 容 ,因而 是 分 布 式 的 存储 方式 。 
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这 使 得 网 络 具 有 良好 的 容错 性 ， 并 能 进行 聚 类 分 析 、 特 征 提取 、 缺 损 模式 复原 等 模式 信息 
处 理工 作 ; 又 宜 于 做 模式 分 类 、 模 式 联想 等 模式 识别 工作 . 

(4) 十 分 强 的 自 适应 、 自 学 习 功能 

人 工 神经 网 络 可 以 通过 训练 和 学 习 来 获得 网 络 的 权 值 与 结构 ， 呈 现 出 很 强 的 自学 习 能 
力 和 对 环境 的 自 适 应 能 力 。 


1.2 和 神经 细胞 尺 及 人 工 神经 元 的 组 戌 


神经 系统 的 基本 构造 单元 是 神经 细胞 ， 也 称 神 经 元 。 它 和 人 体 中 其 他 细胞 的 关键 区 别 
在 于 具有 产生 、 处 理 和 传递 信号 的 功能 。 每 个 神经 元 都 包括 三 个 主要 部 分 : 细胞 体 、 树 突 
和 轴 罕 。 树 突 的 作用 是 向 四 方 收集 由 其 他 神经 细胞 传 来 的 信息 ， 轴 突 的 功能 是 传 出 从 细胞 
体 送 来 的 信息 。 每 个 神经 细胞 所 产生 和 传递 的 基本 信息 是 兴奋 或 抑制 。 在 两 个 神经 细胞 之 
赣 的 相互 接触 点 称 为 突 触 。 简 单 神 经 元 网 络 及 其 简化 结构 如 图 1.1 所 示 。 
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(a) 


AN 


人 简单 神经 元 网 络 图 @) 简化 后 的 网 络 示意 图 
(GD 一 细胞 体 ; (2) 一 树 突 ; (3) 一 轴 突 ; (4) 一 突 触 
图 1.1 简单 神经 元 网 络 及 其 简化 结构 图 


从 信息 的 传递 过 程 来 看 ， 一 个 神经 细胞 的 树 突 ， 在 突 触 处 从 其 他 神经 细胞 接受 信号 ， 
这 些 信号 可 能 是 兴奋 性 的 ， 也 可 能 是 抑制 性 的 。 所 有 树 突 接受 到 的 信号 都 传 到 细胞 体 进行 
综合 处 理 。 如 果 在 一 个 时 间 间 隔 内 ， 某 一 细胞 接受 到 的 兴奋 性 信号 量 足 够 大 ， 以 致 于 使 该 
细胞 被 激活 ， 而 产生 一 个 脉冲 信号 。 这 个 信号 将 沿 着 该 细胞 的 轴 突 传送 出 去 ， 并 通过 突 触 
传 给 其 他 神经 绸 胞 。 神经 细胞 通过 突 触 的 联接 形成 神经 网 络 ， 
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人 们 正 是 通过 对 人 脑 神经 系统 的 初步 认识 ， 尝 试 构造 出 人 工 神 经 元 以 组 成 人 工 神经 网 
络 系统 来 对 人 的 智能 ， 甚 至 是 思维 行为 进行 研究 ; 尝试 从 理性 角度 前 明 大 脑 的 高 级 机 能 。 
经 过 几 十 年 的 努力 与 发 展 ， 已 涌现 出 上 百 种 人 工 神经 网 络 模型 。 它 们 的 网 络 结构 、 人 性 能 、 
算法 及 应 用 领域 各 异 ， 但 均 是 根据 生物 学 事实 衍生 出 来 的 由 于 其 基本 处 理 单元 是 对 生物 
神经 元 的 近似 仿真 ， 因 而 被 称 之 为 人 工 神经 元 。 它 用 于 仿效 生物 神经 细胞 最 基本 的 特性 ， 
与 生物 原型 相对 应 。 人 工 神经 元 的 主要 结构 单元 是 信号 的 输入 、 综 合 处 理 和 输出 ， 其 输出 
信号 的 强度 大 小 反映 了 该 单元 对 相 邻 单元 影响 的 强 弱 。 人 工 神 经 元 之 间 通 过 互相 联接 形成 
网 络 ， 称 为 人 工 神经 网 络 。 神 经 元 之 间 相 互联 接 的 方式 称 为 联接 模式 ， 相 互 之 间 的 联接 度 
由 联接 权 值 体现 。 在 人 工 神经 网 络 中， 改变 信息 处 理 过程 及 其 能 力 ， 就 是 修改 网 络 权 值 的 
过 程 。 

目前 多 数 人 工 神经 网 络 的 构造 大 体 上 都 采用 如 下 的 一 些 原则 : 

1 ) 由 一 定数 量 的 基本 单元 分 层 联接 构成 ; 

2 ) 每 个 单元 的 输入 、 输 出 信号 以 及 综合 处 理 内 容 都 比较 简单 ; 

3 ) 网 络 的 学 习 和 知识 存储 体现 在 各 单元 之 间 的 联接 强度 上 。 


13 ”人工 神经 网 络 应 用 领域 


随 着 人 工 神 经 网 络 技术 的 发 展 ， 其 用 途 日 益 广 泛 ， 应 用 领域 也 在 不 断 拓展 ， 已 在 各 工 
程 领域 中 得 到 广泛 的 应 用 。 总 而 言 之 ， 人 工 神经 网 络 技术 可 用 于 如 下 信息 处 理工 作 : 函数 
有 逼近、 感知 党 模拟 、 多 目标 跟踪 、 联 想 记 忆 及 数据 恢复 等 。 具 体 而 言 ， 其 主要 用 于 (或 比 
较 适 宜 于 用 来 ) 解 算 下 述 几 类 同 题 : 

( 工 ) 模式 信息 处 理 和 模式 识别 

所 谓 模 式 ， 从 广义 上 说 ， 就 是 事物 的 某 种 特性 类 属 ， 如 : 图 像 、 文 字 、 语 言 、 符 号 等 
感知 形象 信息 ; 雷达 、 声 纳 信号 、 地 球 物 探 、 卫 星云 图 等 时 空 信 息 ; 动 植物 种 类 形态 、 产 
品 等 级 、 化 学 结构 等 类 别 差异 信息 等 等 。 模 式 信息 处 理 就 是 对 模式 信息 进行 特征 提取 、 聚 
类 分 析 、 边 缘 检 测 、 信 和 号 增强 、 噪 声 抑制 、 数 据 压 缩 以 及 各 种 变换 等 。 模 式 识别 就 是 将 所 
研究 客体 的 特性 类 属 映 射 成 “类 别 号 ”， 以 实现 对 客体 特定 类 别 的 识别 。 人 工 神经 网 络 特 
别 适 宜 解 算 这 类 问题 ， 形 成 了 新 的 模式 信息 处 理 技术 。 它 在 各 领域 中 的 广泛 应 用 是 神经 网 
络 技术 发 展 的 重要 侧面 。 这 方面 的 主要 应 用 有 : 图 形 、 符 号 、 手 写 体 及 语音 识别 ， 雷 达 及 
声 纳 等 目标 识别 ， 药 物 构 效 关系 等 化 学 模式 信息 辨识 ， 机 器 人 视觉 、 听 觉 ， 各 种 最 近 相 邻 
模式 聚 类 及 识别 分 类 等 等 . 

(2) 最 优化 问题 计算 

人 工 神经 网 络 的 大 部 分 模型 是 非 线 性 动态 系统 ， 若 将 所 计算 问题 的 目标 函数 与 网 络 某 
种 能 量 组 数 对 应 起 来 ， 网 络 动态 向 能 量 函 数 极 小 值 方向 移动 的 过 程 则 可 视 作 优化 问题 的 解 
算 过 程 。 网 络 的 动态 过 程 就 是 优化 问题 计算 过 程 ， 稳 态 点 则 是 优化 问题 的 局 部 或 全 局 最 优 
动态 过 程 解 。 这 方面 的 应 用 包括 组 合 优化 、 条 件 约 束 优化 等 一 类 求解 问题 ,如 任务 分 配 、 货 
物 调度 、 路 径 选 择 、 组 合 编码 、 排 序 、 系 统 规划 、 交 通 管 理 以 及 图 论 中 各 类 问题 的 解 算 等 。 
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(3 ) 信息 的 智能 化 处 理 

神经 网 络 适 宜 于 处 理 具 有 残缺 结构 和 含有 错误 成 分 的 模式 ， 能 够 在 信 源 信息 含糊 、 不 
确定 、 不 完整 ， 存 在 矛盾 及 假象 等 复杂 环境 中 处 理 模式 。 网 络 所 具有 的 自学 习 能 力 使 得 传 
统 专家 系统 技术 应 用 最 为 困难 的 知识 获取 工作 转换 为 网 络 的 变 结构 调节 过 程 ， 从 而 大 大 方 
便 了 知识 库 中 知识 的 记忆 和 抽 提 。 在 许多 复杂 问题 中 ( 如 医学 诊断 ) ， 存 在 大 量 特例 和 反 
例 ， 信 息 来 源 既 不 完整 ， 又 含有 假象 ， 且 经 常 遇 到 不 确定 性 信息 ， 决 策 规则 往往 相互 矛盾 ， 
有 时 无 条 理 可 循 ， 这 给 传统 专家 系统 应 用 造成 极 大 困难 ， 甚 至 在 某 些 领域 无 法 应 用 ， 而 神 
经 网 络 技术 则 能 突破 这 一 障碍 ， 且 能 对 不 完整 信息 进行 补 人 全、 根据 已 学 会 的 知识 和 处 理 问 
题 的 经 验 对 复杂 问题 作出 合理 的 判断 决策 ， 给 出 较 满意 的 解答 ， 或 对 未 来 过 程 作出 有 效 的 
预测 和 估计。 这 方面 的 主要 应 用 是 : 自然 语言 处 理 、 市 场 分 析 、 预 测 估 值 、 系 统 诊 断 、 事 
故 检 查 、 密 码 破译 、 语 言 翻 译 、 逻 辑 推理 、 知 识 表达 、 智 能 机 器 人 、 模 糊 评判 等 。 

(4) 复杂 控制 

神经 网 络 在 诸如 机 器 人 运动 控制 等 复杂 控制 问题 方面 有 独到 之 处 。 较 之 传统 数字 计算 
机 的 离散 控制 方式 ， 更 适宜 于 组 成 快速 实时 自 适 应 控制 系统 。 这 方面 的 主要 应 用 是 : 多 变 
量 自 适应 控制 、 变 结构 优化 控制 、 并 行 分 布控 制 、 智 能 及 鲁 棒 控 制 等 。 

(5 ) 信号 处 理 

神经 网 络 的 自学 习 和 自 适 应 能 力 使 其 成 为 对 各 类 信号 进行 多 用 途 加 工 处 理 的 一 种 天 然 
工具 ， 尤 其 在 处 理 连 续 时 序 模拟 信号 方面 有 很 自然 的 适应 性 。 这 方面 的 主要 应 用 有 : 自 适 
应 滤波 、 时 序 预 测 、 谱 估计 和 快速 传 里 叶 变 换 、 通 信 编 码 和 解码 、 信 号 增强 降 噪 、 噪 声 相 
消 、 信 号 特征 检测 等 ， 神 经 网 络 在 做 弱 信 号 检测 、 通 信 、 自 适应 滤波 等 方面 的 应 用 尤其 引 
人 注目 ， 已 在 许多 行业 得 到 运用 。 


1.4 人 工 神 经 网 络 发 展 的 回顾 


人 工 神 经 网 络 的 实质 反映 了 输入 转化 成 输出 的 一 种 数学 表达 式 ， 这 种 数学 关系 是 由 网 
络 的 结构 确定 的 ， 而 网 络 结构 必须 根据 具体 问题 进行 设计 和 训练 。 学 习 人 工 神经 网 络 的 关 
键 在 于 掌握 生物 神经 网 络 与 人 工 神经 网 络 建 模 的 联系 ， 人 工 神 经 网 络 的 数学 基础 ， 以 及 人 
工 神经 网 络 的 应 用 。 下 面 首先 从 人 工 神经 网 络 发 展 的 过 程 人 手 来 了 解 和 建立 生物 神经 网 络 
与 人 工 神经 网 络 建 模 的 联系 ， 并 通过 网 络 结构 与 数学 表达 式 将 其 关系 联系 起 来 。 

一 般 认为 ， 最 早 用 数学 模型 对 神经 系统 中 的 神经 元 进行 理论 建 模 的 是 美国 心理 学 家 玫 
卡 洛 克 ( W. McCulloch ) 和 数学 家 皮 茨 ( W.Pitts ) 。 1943 年 ， 他 们 在 分 析 和 研究 了 人 脑 细 
胞 神经 元 后 认为 : 人 脑 细胞 神经 元 的 活动 像 一 个 断 通 的 开关 。 为 此 他 们 引入 了 阶 牙 阀 值 函 
数 ， 并 用 电路 构成 了 简单 的 神经 网 络 模型 ， 这 就 是 常 称 的 MP 模型 ， 如 图 1.2 所 示 。 图 中 
输入 矢量 分 量 为 放 (J = 1, 2,…,r); 神经 元 输出 状态 取 值 为 1 或 0 , 权 值 分 量 为 w (= 1, 2,.….， 
”~ )， 体 现 了 输入 矢量 作用 的 强 弱 : 其 值 为 +1 时 ， 表 示 该 输入 节点 处 于 兴奋 状态 ， 产 生 加 强 
的 作用 ; 其 值 为 -1 时 ， 则 起 抑制 作用 。 郑 数 丸 ，) 被 称 为 激活 传递 函数 ( Activation transfer 
function ) ， 常 简称 为 激活 函数 或 传递 函数 。 激 活 函 数 的 输 和 为 神经 元 输入 矢量 的 加 权 和 : 





局 多 7 放 ， 其 输出 代表 神经 元 的 输出 。 所 以 激活 函数 反映 了 人 工 神经 元 的 实质 内 容 。 在 M 


P 神 经 元 的 数学 模型 中 ， 模 仿 断 通 开关 功能 的 激活 函数 是 一 个 二 值 型 阅 值 画 数 ， 其 数学 表 
达 式 为 : 
1 》， wj/ >0 
a=FD=1 条 (1 
0 》， Wi7D <0 
j=1 
其 输入 /输出 关系 式 如 图 1.3 所 示 。 
MP 神经 元 模型 首次 用 简单 的 数学 模型 模仿 出 生物 神经 元 的 活动 功能 , 并 揭示 了 通过 神 
经 元 的 相互 连接 和 简单 的 数学 计算 ， 可 以 进行 相当 复杂 的 逻辑 运算 这 一 令 人 兴奋 的 事实 。 
代表 MP 神经 元 模型 的 闪 值 型 激活 函数 在 以 后 的 许多 其 他 人 工 神 经 网 络 中 得 到 了 广泛 的 应 
用 。 
1957 年 ， 美 国 计 算 机 学 家 罗 森 布 拉 特 ( F. Rosenblatt ) 提出 了 著名 的 感知 器 
( Perceptron ) 模型 。 它 是 一 个 具有 连续 可 调 权 值 矢量 的 MP 神经 网 络 模型 ， 经 过 训练 可 
以 达到 对 一 定 的 输入 矢量 模式 进行 分 类 和 识别 的 目的 。 
fg) 


0 
图 1.2 MP 神经 元 模型 图 1.3 MP 神经 元 模型 的 激活 函数 


1959 年 ， 当 时 的 另外 两 位 美国 工程 师 威 德 罗 ( B. Widrow ) 和 夫 夫 ( M. Hoff ) 提出 
了 自 适应 线性 元 件 ( Adaptive linear element， 简称 Adaline).。 它 是 感知 器 的 变化 形式 ,尤其 在 
修正 权 矢 量 的 算法 上 进行 了 改进 ， 不 仅 提 高 了 训练 收敛 速度 ， 而 且 提 高 了 训练 精度 。 他 们 
从 工程 实际 出 发 ， 不 仅 在 计算 机 上 模拟 了 这 种 神经 网 络 ， 而 且 还 做 成 了 硬件 。 并 将 训练 后 
的 人 工 神 经 网 络 成 功 地 用 于 抵消 通讯 中 的 回 波 和 噪声 ， 成 为 第 一 个 用 于 解决 实际 问题 的 人 
工 神经 网 络 . 

1969 年 ， 人工 智能 创始 人 之 一 明 斯 基 ( M. Minsky ) 和 帕 伯 特 ( $. Papert ) 在 合 著 的 
《感知 器 》 一 书 中 对 以 单 层 感知 器 为 代表 的 简单 人 工 神经 网 络 的 功能 及 其 局 限 性 从 数学 上 
进行 了 深入 的 分 析 . 他 们 指出 : 单 层 感知 器 只 能 进行 线性 分 类 ， 对 线性 不 可 分 的 输入 模式 ， 
哪怕 是 简单 的 “ 异 或 ”逻辑 运算 ， 单 层 感 知 器 也 无 能 为 力 ， 而 其 解决 办 法 则 是 设计 训练 出 
具有 隐 含 层 的 多 层 神经 网 络 。 同 时 他 们 还 指出 ， 在 引入 隐 含 层 后 ， 要 找到 一 个 有 效 地 修正 
权 矢 量 的 学 习 算 法 并 不 容易 。 这 一 结论 使 得 当时 许多 神经 网 络 研 究 者 感到 前 途 渺 茫 ， 客 观 
上 对 神经 网 络 理论 的 发 展 起 了 一 定 的 消极 作用 。 








美国 学 者 霍 普 菲 尔 德 ( 工 Hopfield ) 对 人 工 神经 网 络 研 究 的 复苏 起 到 了 关键 性 的 作用 。. 
1982 年 ， 他 提出 了 黎 普 菲尔德 网 络 模型 ， 将 能 量 画 数 引入 到 对 称 反馈 网 络 中 ， 使 网 络 的 稳 
定性 有 了 明确 的 判 握 ， 并 利用 所 提出 的 网 络 的 神经 计算 能 力 来 解决 条 件 优化 问题 。 另 外 ， 
霜 普 菲尔德 网 络 模型 可 以 用 电子 模拟 线路 来 实现 ， 这 种 神经 网 络 所 执行 的 运算 在 本 质 上 不 
同 于 布尔 代数 运算 ， 从 而 由 此 它 还 兴起 了 对 新 一 代 电 子 神经 计算 机 的 研究 。 

另 一 个 突破 性 的 研究 成 果 是 儒 默 哈 特 ( D. E. Rumelhart ) 等 人 在 1986 年 提出 的 解决 多 
层 神 经 网 络 权 值 修正 的 算法 一 误差 反 向 传播 法 ( Eror Back-Propagation ) ， 简 称 BP 算法 ， 
找到 了 解决 明 斯 基 和 帕 伯 特 提出 的 问题 的 办 法 ， 从 而 给 人 工 神经 网 络 增添 了 活力 ， 使 其 得 
以 全 面 迅 速 地 恢复 发 展 起 来 。 


15$ ”人工 神经 网 络 的 基本 结构 与 模型 


从 上 节 对 人 工 神经 网 络 发 展 的 回顾 中 我 们 可 以 了 解 到 人 工 神 经 网 络 是 在 现代 神经 学 、 
生物 学 、 心 理学 等 科学 研究 成 果 的 基础 上 产生 的 ， 反 映 了 生物 神经 系统 的 基本 特征 ， 是 对 
生物 神经 系统 的 某 种 抽象 、 简 化 与 模拟 。 具体 人 工 神经 网 络 是 由 许多 并 行 互联 的 相同 神经 
元 模型 组 成 ， 网 络 的 信号 处 理由 神经 元 之 间 的 相互 作用 来 实现 。 

一 个 人 工 神经 网 络 的 神经 元 模型 和 结构 描述 了 一 个 网 络 如 何 将 它 的 输入 矢量 转化 为 输 
出 矢量 的 过 程 。 这 个 转化 过 程 从 数学 角度 来 看 就 是 一 个 计算 的 过 程 。 也 就 是 说 ， 人 工 神经 
网 络 的 实质 体现 了 网 络 输入 和 其 输出 之 间 的 一 种 函数 关系 。 通 过 选取 不 同 的 模型 结构 和 激 
活 函 数 ， 可 以 形成 各 种 不 同 的 人 工 神经 网 络 ， 得 到 不 同 的 输入 /输出 关系 式 ， 并 达到 不 同 的 
设计 目的 ， 完 成 不 同 的 任务 ， 所 以 在 利用 人 工 神经 网 络 解决 实际 应 用 问题 之 前 ， 必 须 首 先 
掌握 人 工 神经 网 络 的 模型 结构 及 其 特性 以 及 对 其 输出 矢量 的 计算 . 


1.5.1 人 工 神经 元 的 模型 


神经 元 是 人 工 神经 网 络 的 基本 处 理 单元 ， 它 一 般 是 一 个 多 输入 / 单 输出 的 非 线性 元 件 . 
神经 元 输出 除 受 输 入 信号 的 影响 外 ， 同 时 也 
受到 神经 元 内 部 其 它 因素 的 影响 ， 所 以 在 人 
工 神经 元 的 建 模 中 ， 常 常 还 加 有 一 个 额外 输 
入 信号 ， 称 为 偏差 (bais, 有 时 也 称 为 阅 值 或 门 
限 值 。 

一 个 具有 个 输入 分 量 的 神经 元 如 图 1.4 
所 示 。 其 中 ， 输 入 分 量 Pj(] = 1 2, ….,r ) 通 
过 与 和 它 相 乘 的 权 值 分 量 wj(j) = 1 2, …r ) 


相连 ， 以 当 ”%7P7 的 形式 求 和 后 ， 形 成 激活 





输入 神经 元 
图 1.4 单个 神经 元 模型 图 
函数 做 ) 的 输入 。 激活 函数 的 另 一 个 输入 是 神经 元 的 偏差 。 


6 到 





权 值 wj 和 输入 己 ) 的 矩阵 形式 可 以 由 丈 的 行 矢量 以 及 尸 的 列 矢 量 来 表示 : 
到 =[fwl wa .Wy 
已 =[pl1P2…Pr 了 
神经 元 模型 的 输出 矢量 可 表示 为 : 
A = 及 WexP+ 月 -37 +) (1.2) 


可 以 看 出 偏差 被 简单 地 加 在 *P 上 作为 激活 函数 的 另 一 个 输入 分 量 . 实际 上 偏差 也 是 
一 个 权 值 ， 只 是 它 具 有 固定 常数 为 1 的 输入 。 在 网 络 的 设计 中 ， 偏 差 起 着 重要 的 作用 ， 它 
使 得 激活 函数 的 图 形 可 以 左右 移动 而 增加 了 解决 问题 的 可 能 性 。 


1.5.2 激活 转移 函数 


激活 函数 (Activation tansfer function) 是 一 个 神经 元 及 网 络 的 核心 。 网 络 解 决 问题 的 
能 力 与 功效 除了 与 网 络 结构 有 关 ， 在 很 大 程度 上 取决 于 网 络 所 采用 的 激活 函数 。 

激活 函数 的 基本 作用 是 : | 

1 ) 控制 输入 对 输出 的 激活 作用 ; 

2 ) 对 输入 、 给 出 进行 函数 转换 ; 

3 ) 将 可 能 无 限 域 的 输入 变换 成 指定 的 有 限 范 围 内 的 输出。 

下 面 是 几 种 常用 的 激活 函数 ， 

(1 工 ) 阀 值 型 ( 硬 限制 型 ) 
这 种 激活 函数 将 任意 输入 转化 为 0 或 1 的 输出 ， 函 数 拟 . ) 为 单位 阶 跃 函数 ， 如 图 1.5 


所 示 。 具 有 此 函数 的 神经 元 的 输入 /输出 关系 为 : 


1 W*P+b> 0 
4-7G7*P+D= W*P+b<0 






-b 


| 
| 
= 一 ~ 一 





(a) 没有 偏差 的 浆 值 型 激活 函数 人 b) 带 有 偏差 的 净值 型 激活 函数 
图 1.5 闪 值 型 激活 函数 
(2 ) 线性 型 
线性 激活 函数 使 网 络 的 输出 等 于 加 权 输 入 和 加 上 偏差 ， 如 图 1.6 所 示 。 此 函数 的 输 人 / 
输出 关系 为 : 





A= We*P+ 人 = W*P+B (1.4) 
(3) S 型 (Sigmoid) 
S 型 激活 函数 将 任意 输入 值 压缩 到 〈0, 1 ) 的 范围 内 ， 如 图 1.7 所 示 。 此 种 激活 函数 常 
用 对 数 或 双 曲 正切 等 一 类 $ 形状 的 曲线 来 表示 ， 如 对 数 S 型 激活 函数 关系 为 : 
1 
1+exp[- (za+ 让 ] 
面 双 曲 正切 S 型 曲线 的 输 和 人 /输出 本 数 关系 为 : 
_1- exp[-2(2+D)] 
1+exp[-2(0+ 门 ] 
S 型 激活 函数 具有 非 线 性 放大 增益 ， 对 任意 输入 的 增益 等 于 在 输入 /输出 曲线 中 该 输入 
点 处 的 曲线 斜率 值 。 当 输入 由 -= 增 大 到 零 时 ， 其 增益 由 0 增 至 最 大 ; 然后 当 输 入 由 0 增加 
至 + 时 ， 其 增益 又 由 最 大 逐渐 降低 至 0 ， 并 总 为 正 值 。 利 用 该 函数 可 以 使 同一 神经 网 络 既 
能 处 理 小 信和 号， 也 能 处 理 大 信号 。 因 为 该 函数 的 中 间 高 增益 区 解决 了 处 理 小 信和 号 的 问题 ， 
而 在 伸 向 两 边 的 低 增 益 区 正好 适用 于 处 理 大 信和 号 的 输入 。 
一 般 地 ， 称 一 个 神经 网 络 是 线性 或 非 线 性 是 由 网 络 神经 元 中 所 具有 的 激活 函数 的 线性 
或 非 线 性 来 决定 的 。 


(1.5) 


(1.0) 





(a) 没有 偏差 的 线性 激活 本 数 (b) 带 有 偏差 的 线性 激活 函数 
图 1.6 线性 激活 函数 





(a) 带 有 偏差 的 对 数 S 型 激活 函数 人 ) 带 有 偏差 的 双 曲 正切 型 S 型 激活 函数 
图 1.7 S 型 激活 函数 





1.5.3 单 层 神经 元 网 络 模型 结构 


将 两 个 或 更 多 的 简单 的 神经 元 并 联 起 来 ， 使 每 个 神经 元 具有 相同 的 输入 和 失 量 P ， 即 可 
组 成 一 个 神经 元 层 ， 其 中 每 一 个 神经 元 产生 一 个 输出 ， 图 1.8 给 出 一 个 具有 了 个 输入 分 量 ， 
个 神经 元 组 成 的 单 层 神经 元 网 络 . 

从 结构 图 1.8 中 可 以 看 出 ， 输 入 矢量 尸 的 每 个 元 素 户 〈7 =12, … 7 )， 通 过 权 和 矩阵 丈 
与 每 个 输出 神经 元 相连 ( 即 全 联接 ); 每 个 神经 元 通过 一 个 求 和 符号 , 在 与 输入 矢量 进行 加 权 
求 和 运算 后 ， 形 成 激活 函数 的 输入 矢量 ， 并 经 过 激活 函数 九 . ) 作用 后 得 到 输出 矢量 4 ， 
它 可 以 表示 为 : 





输入 神经 元 层 
图 1.8 单 层 神经 元 网 络 模型 结构 
4 1=F(Y， .rpPr- :1+B， :1) (1.7) 


其 中 ， 8 为 神经 元 的 个 数 ， 已， ) 表示 激活 函数 。 公 式 中 的 字母 下 标 给 出 了 矢量 矩阵 
所 具有 的 维 数 。 一般 情况 下 ， 输 入 分 量 数 目 ”与 层 神经 元 数目 * 不 相等 ， 即 y* 关 了 。 
网 络 权 和 矩阵 为 : 


Wi WPD .WiT 

2 
砚 , .，= 

WA WA 


注意 ， 权 矩阵 殉 元 素 中 的 行 表 示 神 经 元 的 位 数 ， 而 列表 示 输 入 矢量 的 位 数 ， 因 而 ， 
区 :2 表示 的 是 : 来 自 第 2 个 输入 元 素 到 第 一 个 神经 元 之 间 的 联接 权 值 。 
当 有 4 组 个 输入 元 素 作为 网 络 的 输入 时 ， 输 入 矢量 尸 则 成 为 一 个 维 数 为 r x 4 的 矩 


阵 : 
Pi P2 … Wi 
P PP … PP 
P .= 
| 忆 2 人 We 


此 时 的 输出 矢量 为 一 个 维 数 为 * x 4 的 矩阵 A, “y : 





0 ay 0 


0 0 … 0 


1.5.4 多 层 神经 网 络 


将 两 个 以 上 的 单 层 神经 网 络 级 联 起 来 则 组 成 多 层 神 经 网 络 。 一 个 人 工 网 络 可 以 有 许多 
层 ， 每 层 都 有 一 个 权 和 矩阵 泵 ， 一 个 偏差 矢量 B 和 一 个 输出 矢量 4 ， 为 了 对 各 层 矢 量 和 矩阵 加 
以 区 别 ， 可 以 在 各 层 矢 量 矩 阵 名 称 后 加 上 层 号 来 命名 各 层 变量 ， 例 如 ， 对 第 一 层 的 权 抢 阵 
和 输出 矢量 分 别 用 泵 ] 和 47 来 表示 ,对 第 二 层 的 这 些 变量 表示 为 W2 和 42 等 等 依 此 类 推 。 

一 个 三 层 的 神经 网 络 结构 如 图 1.9 所 示 。 





皮 了 4 


图 1.9 三 层 的 神经 网 络 结构 图 


图 中 所 示 网 络 结构 具有 7 个 输入 矢量 ， 第 一 层 有 *7 个 神经 元 ， 第 二 层 有 s2 个 神经 元 。 
一 般 情 况 下 ,不 同 层 有 不 同 的 神经 元 数目 ， 每 个 神经 元 都 带 有 一 个 输入 为 常数 1 的 偏差 值 。 
多 层 网 络 的 每 一 层 起 着 不 同 的 作用 ， 最 后 一 层 成 为 网 络 的 输出 ， 称 为 输出 层 ， 所 有 其 他 层 
称 为 隐 含 层 . 由 此 可 见 图 1.9 为 具有 两 个 隐 含 层 的 三 层 神 经 网 络 。 有 些 设 计 者 将 与 第 一 隐 
含 层 相连 的 输入 矢量 称 为 输入 层 ， 若 以 此 来 分 ， 图 1.9 可 称 为 四 层 神经 网 络 ， 但 网 络 中 只 
有 三 组 权 和 矩阵。 

为 了 便于 简单 明了 地 抓 住 神经 网 络 各 层 的 重点 , 我 们 将 图 1.9 简化 为 图 1.10 ,并 加 上 4 
组 输入 矢量 . 





输入 隐 含 层 1 隐 含 层 2 输出 层 








在 多 层 网 络 中 ， 每 一 隐 含 层 的 输出 都 是 下 一 层 的 输入 ， 所 以 可 以 将 层 2 看 作 一 层 具 有 
5L x 4 维 输入 矢量 47 ，592 x 81 维权 拖 阵 玖 2 ， 以 及 邑 x 4 维 输出 矢量 42 的 神经 网 络 。 
钼 然 已 经 分 清 了 层 2 的 所 有 矢量 矩阵， 则 可 以 把 它 作为 一 个 单 层 神经 网 络 来 处 理 ， 按 照 前 
节 求 法 来 计算 输入 /输出 之 间 的 函数 关系 . 并 利用 此 法 可 以 写 出 任何 一 层 网 络 输入 /输出 之 间 
的 对 应 关系 式 。 

以 此 方式 ， 图 1.10 所 示 神 经 网 络 的 输出 可 以 用 下 列 数 学 式 表 示 为 : 

41= FL(Wl*P+B1) 
42 = F2 (W2*A41+B2) 
43 = F3 (W3*42+ 有 3) 
= F3 人 W3*F2[w2*Fl (Wl*P+B1) +B2]+ 33| 


对 于 这 种 标准 全 联接 的 多 层 神经 网 络 ， 更 一 般 的 简便 
作 图 是 仅 画 出 输入 节点 和 一 组 隐 含 层 节点 外 加 输出 节点 及 1 
其 连 线 来 示意 表示 ， 如 图 1.11 所 示 。 图 中 只 标 出 输入 、 给 马 
出 和 权 矢 量 ， 完 全 省 去 激活 函数 的 符号 ， 完 整 的 网 络 结构 “ 忆 
则 是 通过 具体 的 文字 描述 来 实现 的 ， 如 : 网 络 具有 一 个 隐 
含 层 ， 隐 含 层 中 具有 5 个 神经 元 并 采用 8 型 激活 函数 ， 输 
出 层 采用 线性 函数 ， 或 者 更 简明 的 可 采用 “网 络 采用 2-5-1 驴 一 7 
结构 ”来 描述 ， 其 中 ， 2 表示 输入 节点 数 ; 5 表示 隐 含 层 图 1.11 神经 网 络 结构 示意 图 
节点 数 ; 1 为 输出 节点 数 。 如 果 不 对 激活 函数 作 进一步 的 
说 明 ， 则 意味 着 隐 含 层 采 用 S 型 函数 ， 而 输出 层 采用 线性 函数 。 
特别 值得 强调 的 是 ， 在 设计 多 层 网 络 时 ， 隐 含 层 的 激活 网 络 应 采用 非 线性 的 ， 否 则 多 
层 网 络 的 计算 能 力 并 不 比 单 层 网 络 更 强 。 因 为 在 采用 线性 激活 函数 的 情况 下 ， 如 果 将 偏差 
作为 一 组 权 值 归 为 克 中 统一 处 理 ， 两 层 网 络 的 输出 42 则 可 以 写 为 : 
42=F2072*+* 4]1) 
三 丽 2*# 天 1071* 己 ) 
三 克 2*# 卫 1# 己 
三 凡 # 己 
其 中 ，F1 = F2 = 屎 为 线性 激活 函数 。 上 式 表明 两 层 线 性 网 络 的 输出 计算 等 效 于 具有 
权 矢 量 为 W = W2*WY1 的 单 层 线性 网 络 的 输出 。 


(1.8) 


(1.9) 


1.35.3 反馈 网 络 


人 工 神 经 网 络 按照 网 络 拓扑 结构 可 分 为 前 向 网 络 和 反馈 网 络 (Recurrent Network) 两 
大 类 .前 几 节 所 见 到 的 网 络 结构 均 为 前 向 网 络 ， 其 特点 是 : 信和 号 的 流向 是 从 输入 通 向 输出 ， 
而 反馈 网 络 的 主要 不 同 点 表现 在 它 的 输出 信号 通过 与 输入 连接 而 返回 到 输入 端 ， 从 而 形成 
一 个 回路 .一 个 具有 8 个 神经 元 的 典型 的 反馈 网 络 如 图 1.12 所 示 . 
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了 
图 1.12 反馈 网 络 结构 图 
前 向 网 络 的 输出 只 是 与 当前 输入 及 其 联接 权 值 有 关 ， 而 在 反馈 网 络 中 ， 由 于 将 输出 循 
环 返 回 到 输入 ， 所 以 每 一 时 刻 的 网 络 输 出 不 仅 取决 于 当前 的 输入 ， 而 且 还 取决 于 上 一 时 刻 
的 输出 。 其 输出 的 初始 状态 由 输入 矢量 设 定 后 ， 随 着 网 络 的 不 断 运 行 ， 从 输出 反馈 到 输入 
的 信号 不 断 改变 ， 也 使 得 输出 不 断 变化 ， 从 而 使 网 络 表现 出 暂 态 特性 ， 这 使 得 反馈 网 络 表 
现 出 前 向 网 络 所 不 具有 的 振荡 或 收敛 特性 。 


1.6 用 MATLAB 计算 人 工 神 经 网 络 输出 


前 面 已 经 说 过 ， 表 征 一 个 神经 网 络 特性 的 关键 是 网 络 的 激活 函数 ， 对 于 多 层 网 络 可 以 
将 前 一 层 的 输出 作为 后 一 层 的 输入 , 而 一 层 一 层 地 计算 直至 网 络 的 输出 . 在 MATLAB 环境 
下 的 神经 网 络 工具 箱 中 对 于 单 层 网 络 输出 的 计算 ， 对 于 给 出 输入 矩阵 已 、 权 和 抢 阵 W 和 偏差 
矩阵 好 的 单 层 网 络 ， 只 要 简单 地 选用 相应 的 激活 王 数 ， 即 可 求 出 网 络 输出 矩 阵 4 ， 所 有 运 
算 直 接 以 抢 阵 形式 进行 。 根 据 前 几 节 所 介绍 的 激活 函数 的 种 类 ， 常 用 的 单 层 神经 元 激活 函 
数 有 : 
1 ) 输出 为 {0,1) 的 硬 函 数 : hardlim.m 
网 络 输出 的 计算 公式 为 : 
4A=hardlim (WP,B)， 
2 ) 输出 为 {-1,1} 的 二 值 函数 : hardlims.m 
网 络 输出 的 计算 公式 为 : 
4=hardlimns ( W#P,B ); 
3 ) 线性 函数 : purelin.m 
网 络 输出 的 计算 公式 为 : 
4=purelin (W#P,B ); 
4 ) 对 数 $ 型 冰 数 :logsig.m 
网 络 输出 的 计算 公式 为 : 
4=logsig(WrfP,B ); 
5 ) 双 曲 正切 S 型 函数 : ”tansig.m 
网 络 输出 的 计算 公式 为 : 





4=tansig (WxzP,B ); 

下 面 我 们 从 简单 地 计算 网 络 的 输出 为 例 来 看 如 何 运 用 MATLAB 工具 箱 解 决 问题 的 。 
【 例 1.1 】 一 个 具有 双 曲 正切 S 型 激活 函数 的 单 层 网 络 ， 输 入 矢量 有 4 组 ， 每 组 3 个 
分 量 ; 输出 矢量 有 $ 个 神经 元 . 假定 输入 矢量 和 权 矢 量 均 取 值 为 1 , 试用 MATLAB 计算 网 


络 的 输出 。 
解 : 
% outa.m 文件 名 
Q=+4; % 行 数 
R=3; % 列 数 
S = 3; % 神经 元 数 
W=ones(S,R); 9 将 数 工 赋予 SxR 维权 和 矩阵 W 
B =ones(S, 1 ); % 将 数 1 赋予 Sxl 维 偏差 矩阵 B 
P = ones R,Q ); 9% 将 数 1 赋予 Rxl 维 输入 矩阵 P 
flops(0) % 置 0 
A=tansig(WrP,B) 匈 计算 网 络 输出 
flops % 计算 并 显示 浮 点 操作 次 数 
end % 程序 结束 


网 络 输出 文件 设计 好 后 ， 将 它 存 人 名 为 outa.m 的 文件 中 ， 然 后 在 MATLAB 的 工作 界 
面 的 提示 符 》 后 下 写 outa 并 打 回 车 进行 执行 ， 则 立刻 可 以 看 到 A 的 输出 结果 以 及 运算 所 
花费 的 浮 点 操作 数 : ， 

》 outa 
A= 

0.9993 0.9993 0.9993 0.9993 

0.9993 0.9993 0.9993 0.9993 

0.9993 0.9993 0.9993 0.9993 

0.9993 0.9993 0.9993 0.9993 

0.9993 0.9993 0.9993 0.9993 


as 三 
280 

这 是 由 文件 中 的 函数 fops.m 计算 出 的 , 它 可 以 给 出 程序 编写 的 运算 过 程 所 花费 的 浮 点 
操作 次 数 . 用 此 函数 可 以 在 网 络 训练 以 及 设计 中 ， 对 所 采用 算法 的 优 劣 程度 给 出 一 个 判断 
的 依据 。 

在 MATLAB 环境 下 ， 用 百分比 号 “ % ”表示 注释 ; 而 每 一 语句 后 的 分 号 “ ; ” 表 
示 在 运行 此 命令 后 不 显示 其 计算 结果 ; 若 采用 逗号 “，” 或 无 符号 ， 则 在 运行 后 给 出 结果 ， 
诸如 此 类 的 编程 规则 在 MATLAB 的 使 用 过 程 中 能 够 很 方便 地 随时 通过 help 命令 进行 查 
询 ， 而 且 每 当 编 程 有 错时 ， 程 序 运行 后 在 工作 界面 里 会 指出 来 。 

以 上 的 MATLAB 的 .m 文件 可 以 在 工作 界面 的 提示 符 下 一 名 一 名 的 写 出 并 执行 。 不 过 
笔者 认为 由 于 一 般 解 题 的 程序 不 是 靠 一 两 句 程序 即 可 完成 ， 从 节省 工作 量 以 及 便于 操作 考 





虑 ， 建 议 从 对 任何 小 的 习题 开始 都 养 成 写 一 个 .m 文件 的 习惯 ， 即 将 所 做 工作 写 进 以 扩展 名 
为 .mm 的 文件 ， 这 样 可 以 随时 修改 、 添 加 和 删 减 其 内 容 ， 比 如 上 面 【 例 1.1 】 的 第 一 行 就 用 
注释 写 出 了 本 题 的 文件 名 为 outa.m . 这 个 文件 的 生成 只 要 在 工作 界面 的 右上 角 File 中 打开 
新 的 文件 ， 即 可 开始 编写 自己 的 新 程序 。 完 成 程序 的 编写 后 ,将 其 另 名 保存 为 outa.m 即 可 。 
运行 时 在 工作 界面 写 下 outa (扩展 名 可 以 省 略 不 些 ) 打 回 车 。 

【 例 1.2 】 用 MATLAB 写 出 计算 由 图 1.9 所 表示 的 三 层 神 经 网 络 的 每 层 输出 表达 式 。 

已 知 : P=[0.1 0.5; 

0.3 -0.2], 
S1 = 2，; S2=3; S3=4; 

Fl1 为 {-1 } 二 值 型 机 数 ; F2 为 对 数 $ 型 函数 ; F3 为 线性 函数 。 


解 : 
2% Imultoutm 
P=[0.1 0.$;0.3 -0.2 ]; % 已 知 输 入 矢量 数据 
Sl1=2; S2=3; S3=5; 狗 已 知 各 层 节 点 数 
[R,Q ] = size (P); 多 求 出 输入 矢量 的 行 和 列 
[W1B1L]= rands (S1 R); % 给 第 一 隐 含 屋 权 值 赋 (-1, 1) 之 间 的 随机 值 
[ W2,B2]=Irands (S2, S1); 色 给 第 二 隐 含 层 权 值 赋 (-1, 1) 之 间 的 随机 值 


[ W3, B3 ] = Tands (S3, S2); % 给 输出 层 权 值 赋 (C1, 41) 之 间 的 随机 值 
Al =hardlims ( W1l*P, Bl ) % 计算 第 一 层 输出 表达 式 
A2=logsig ( W2*Al,B2 ) 多 计算 第 二 层 输 出 表达 式 
A3=purelin ( W3*A2, B3 ) 多 计算 输出 层 输出 表达 式 


end 


当 把 上 述 程序 存 人 名 为 multoutm 中 并 在 工作 界面 运行 后 , 可 立刻 得 到 在 随机 初始 权 值 
下 的 输出 值 Al 、 A2 和 A3 ， 这 是 因为 程序 中 这 三 个 表达 式 后 没有 加 分 号 “; ”的 缘故 。 
本 例题 中 的 实质 就 是 三 个 输出 表达 式 ， 其 他 内 容 均 为 赋值 与 参数 初始 化 。 由 此 可 见 应 用 
MATILAB 工具 箱 的 简便 。 当 计算 复杂 时 ， 更 能 显示 出 它 的 优越 性 来 

参数 初始 化 是 神经 网 络 设计 中 一 项 很 重要 的 步 又， 并 且 是 由 设计 者 来 完成 的 。 从 【 例 
1.2 本 中 可 以 看 出 ， 所 有 层 中 的 权 和 矩阵 维 数 的 大 小 均 在 随机 取 值 函数 rands.m 运行 中 由 所 给 
定 的 网 络 各 层 的 神经 元 SI ， S2 和 8$3 确定 的 .三 层 网 络 中 的 每 层 网 络 权 和 矩阵 的 初始 化 均 是 
采用 同一 随机 函数 进行 的 ,所 不 同 的 仅 在 于 其 中 表示 行 和 列 的 维 数 : 第 一 层 网 络 是 8S1 x R; 
第 二 层 网 络 输出 是 : 52 x sL1 第 三 层 网 络 输出 是 : 83 x s2 。 由 此 可 见 ， 只 有 设计 者 对 网 
络 结构 清楚 明了 后 , 才能 够 正确 地 写 出 其 表达 式 , 才能 够 运用 好 MATLAB 工具 箱 快速 准确 
地 解决 问题 . 

从 下 一 章 开 始 我 们 将 逐一 详细 介绍 各 典型 人 工 神经 网 络 的 模型 结构 、 学 习 规则 和 训练 
过 程 ， 并 结合 实例 ,利用 MATLAB 环境 下 的 神经 网 络 工具 箱 ， 深 和 分析 与 探讨 各 类 网 络 的 
特性 、 功 能 以 及 所 存在 的 局 限 性 ， 使 读者 能够 更 加 全 面 地 掌握 人 工 神经 网 络 的 理论 、 设 计 
与 应 用 . 





1.7 本 章 小 结 


1 ) 人 工 神经 网 络 是 对 生物 神经 网 络 进行 仿真 研究 的 结果 ， 或 者 说 ， 人 工 神经 网 络 技 
术 是 根据 所 掌握 的 生物 神经 网 络 机 理 的 基本 知识 ， 按 照 控制 工程 的 思路 和 数学 描述 的 方 
法 ， 建 立 相应 的 数学 模型 ， 并 采用 适当 的 算法 ， 有 针对 性 地 确定 数学 模型 的 参数 ( 如 联接 
权 值 、 阀 值 等 ) ， 以 便 获 得 某 个 特定 问题 的 解 ; 

2 ) 经 过 几 十 年 的 兴衰 ， 人 们 已 经 发 展 了 上 百 种 人 工 神经 网 络 。 但 大 部 分 网 络 都 是 几 
种 典型 网 络 的 变形 和 组 合 ， 一般 地 说 ， 人 工 神经 网 络 的 拓扑 结构 可 分 两 种 : 前 向 网 络 和 反 
馈 网 络 。 在 本 书 中 主要 介绍 和 运用 的 典型 的 前 向 网 络 为 : 单 层 感知 器 、 自 适应 线性 网 络 和 
BP? 网 络 ; 反馈 网 络 主要 介绍 和 运用 离散 型 与 连续 型 霍 普 菲尔德 网 络 ， 另 外 还 将 介绍 的 典型 
网 络 有 : 竞争 网 络 和 自 适 应 共振 理论 ( ART ) 网 络 ; 

3 ) 学 习 人 工 神 经 网 络 的 重点 在 于 了 解 和 掌握 各 典型 人 工 神经 网 络 的 模型 结构 、 学 习 
规则 和 训练 过 程 ， 以 及 灵活 应 用 .。 神经 网 络 的 训练 学 习 方 式 主要 分 为 以 下 两 种 : 监督 式 (也 
称 有 导师 ) 的 和 无 监督 ( 也 称 为 无 导师 ) 的 。 前 者 待 分 类 的 模式 类 别 属性 已 知 。 对 于 每 次 
模式 样本 的 输入 ， 网 络 输出 端 都 有 一 个 对 应 的 指导 ( 监督 ) 信号 与 其 属性 相 匹配 。 基 于 网 
络 输出 端 监督 信号 与 实际 输出 的 某 种 目标 函数 准则 ， 通 过 不 断 调整 网 络 的 联接 权 值 ， 使 得 
网 络 输出 端的 输出 与 监督 信号 的 误差 逐渐 减 小 到 预定 的 期 望 要求 。 而 后 者 待 分 类 的 模式 类 
别 属性 未 知 ， 网 络 结构 和 联接 权 值 根据 某 种 聚 类 法 则 ， 自 动 对 慎 围 环境 的 模式 样本 进行 学 
习 和 调整 ， 直 至 网 络 的 结构 及 其 联接 分 布 能 合理 地 反映 训练 样本 的 统计 分 布 。 所 有 这 些 具 
体内 容 都 将 在 后 面 的 章节 里 陆续 进行 详细 阐述 .。 
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第 二 草 ”感知 器 


感知 器 是 由 美国 计算 机 科学 家 罗 森 布 拉 特 于 1957 年 提出 的 。 感知 器 可 谓 是 最 早 的 人 工 
神经 网 络 . 单 层 感知 器 是 一 个 具有 一 层 神 经 元 、 采 用 阀 值 激活 函数 的 前 向 网 络 。 通 过 对 网 
络 权 值 的 训练 ， 可 以 使 感知 器 对 一 组 输入 矢量 的 响应 达到 元 素 为 0 或 1 的 目标 输出 。 从 而 
实现 对 输入 矢量 分 类 的 目的 。 图 2. 1 给 出 了 单 层 感知 器 神经 元 模型 图 . 





2.1 感知 器 神经 元 模型 


其 中 ， 每 一 个 输入 分 量 P (7 = 1 2, …,r ) 通 过 一 个 权 值 分 量 w/ 进行 加 权 求 和 ， 并 作为 
闪 值 兽 数 的 输入 。 偏 差 的 加 入 使 得 网 络 多 了 一 个 可 调 参数 ， 为 使 网 络 输出 达到 期 望 的 目 
标 矢 量 提供 了 方便 。 感 知 器 特别 适合 解决 简单 的 模式 分 类 问题 。 

感知 器 实际 上 是 在 MP 模型 的 基础 上 加 上 学 习 功能 ， 使 其 权 值 可 以 调节 的 产物 。 罗 森 
布 拉 特 研究 了 单 层 的 以 及 具有 一 个 隐 含 层 的 感知 器 。 但 在 当时 他 只 能 证 明 单 层 感知 器 可 以 
将 线性 可 分 输入 矢量 进行 正确 划分 ， 所 以 本 书 中 所 说 的 感知 器 是 指 单 层 的 感知 器 。 多 层 网 
络 因为 要 用 到 后 面 将 要 介绍 的 反 向 传播 法 进行 权 值 修正 ， 所 以 把 它们 均 妇 类 为 反 向 传播 网 
络 之 中 。 


2.1 感知 器 的 网 络 结构 


感知 器 的 网 络 是 由 单 层 的 * 个 感知 神经 元 ,通过 一 组 权 值 {twj } (= 1 2, 8 7] = 1 2 
门 与 7 个 输入 相连 组 成 。 对 于 具有 输入 矢量 已 “， 和 目标 矢量 忆 y 的 感知 器 网 络 的 简化 结构 
如 图 2.2 所 示 。 
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2.2 感知 器 简化 结构 图 


根据 网 络 结构 ， 可 以 写 出 第 个 输出 神经 元 ( 奔 = 1 ,2,…,s ) 的 加 权 输 入 和 户 及 其 输 
出 为 : 


量 
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让 三 DYyP C.D 


j=l 
化 二 (7 十 已 ) (2.2) 
感知 器 的 输出 值 是 通过 测试 加 权 输入 和 值 落 
在 阀 值 函数 的 左右 来 进行 分 类 的 ， 即 有 : 


呈 
lo +b<0 


4 
(2.3) 

阔 值 激活 函数 如 图 2.3 所 示 ， 

由 图 2.3 可 知 : 当 输入 疡 +bi 大 于 等 于 0 ， 即 有 
> -六 时 ， 感 知 器 的 输出 为 1 ， 否 则 输出 w 为 0 . 
利用 偏差 疡 的 使 用 ， 使 其 函数 可 以 左右 移动 ， 从 而 
增加 了 一 个 自由 调整 变量 和 实现 网 络 特 性 的 可 图 2.3， 闪 人 值 激活 函数 
能 性 , 





2.2 ”感知 器 的 图 形 解 释 


由 感知 器 的 网 络 结构 ， 我 们 可 以 看 出 感知 器 的 基本 功能 是 将 输入 矢量 转化 成 0 或 工 的 
输出 。 这 一 功能 可 以 通过 在 输入 矢量 空间 里 的 作 图 来 加 以 解释 。 为 了 简单 起 见 ， 以 下 取 = 
1 ， 即 输出 为 一 个 节点 的 网 络 的 情况 来 进行 作 图 解释 . 

由 感知 器 的 输入 /输出 的 关系 式 (2.3) 可 知 ， 感 知 器 的 输出 只 有 1 或 0 两 个 状态 ， 其 他 值 
由 Ws*P+zb 的 值 大 于 、 等 于 或 小 于 零 来 确定 。 当 网 络 的 权 值 泵 和 书 确 定 后 ,在 由 各 输入 矢 
量 记 0 = 1 2,…,r ) 为 坐标 轴 所 组 成 的 输入 矢量 空间 里 ， 可 以 画 出 W#*P +) = 0 的 轨迹 ， 对 
于 任意 给 定 的 一 组 输入 矢量 已 ， 当 通过 感知 器 网 络 的 权 值 到 和 尹 的 作用 , 或 落 在 输入 空间 
W*P+Db=0 的 轨迹 上 ， 或 落 在 W*P +b = 0 轨迹 的 上 部 或 下 部 ， 而 整个 输入 矢量 空间 是 以 
Wx*P +b=0 为 分 割 界 ， 即 不 落 在 W*P +b= 0 轨迹 上 的 输入 矢量 , 不 是 属于 W*P+b>0， 
就 是 使 W*P + <0 . 因而 感知 器 权 值 参 数 的 设计 目的 , 就 是 根据 学 习 法 则 设计 一 条 W*#P + 
=0 的 轨迹 ， 使 其 对 输入 矢量 能 够 达到 期 望 位 置 的 划分 ， 

以 输入 矢量 ~= 2 为 例 ， 对 于 选 定 的 权 值 w 、w 和 睛 ， 可 以 在 以 户 和 疡 分 别 作为 横 、 
纵 坐 标的 输入 平面 内 画 出 W*P + 0 = wIpi +wz2pz += 0 的 轨迹 ， 它 是 一 条 直线 ， 此 直线 上 
的 及 其 线 以 上 部 分 的 所 有 户 、 疡 值 均 使 wp +wzpz + > 0 ， 这 些 点 若 通过 由 Wi ， W2 
和 构成 的 感知 器 则 使 其 输出 为 1 ; 该 直线 以 下 部 分 的 点 则 使 感知 器 的 输出 为 0 。 所 以 当 
采用 感知 器 对 不 同 的 输入 矢量 进行 期 望 输出 为 0 或 1 的 分 类 时 ， 其 问题 可 转化 为 : 对 于 已 
知 输入 矢量 在 输入 空间 形成 的 不 同 点 的 位 置 , 设计 感知 器 的 权 值 友和 总 ,将 由 Ws*P+Dp=0 
的 直线 放置 在 适当 的 位 置 上 使 输入 矢量 按期 望 输出 值 进行 上 下 分 类 。 

闪 值 函数 通过 将 输入 矢量 的 > 维 空间 分 成 若干 区 域 而 使 感知 器 具有 将 输入 矢量 分 类 的 
能 力 。 输 出 矢量 的 0 或 1 ， 取 决 于 对 输入 的 分 类 . 





图 2.4 给 出 了 感知 器 在 输入 平面 中 的 图 形 ， 从 中 可 以 清楚 看 出 : 由 直线 W*P +b=0 将 
由 输入 矢量 Pi 和 诡 组 成 的 平面 分 为 两 个 区 域 ， 此 线 与 权重 矢量 丸 正 交 可 根据 偏差 进行 
左右 平移 。 直 线 上 部 的 输入 矢量 使 闪 值 郴 数 的 输入 大 于 0 ， 所 以 使 感知 器 神经 元 的 输出 为 
1 。 直 线 下 部 的 输入 矢量 使 感知 器 神经 元 的 输出 为 0 。 分 割 线 可 以 按照 所 选 的 权 值 和 偏差 
上 下 左右 移动 到 期 望 划分 输入 平面 的 地 方 。 
P2 







JP+p>0 


JP+p=0 
亡 


-DB W 2 





图 2.4 输入 矢量 平面 图 


感知 器 神经 元 不 带 偏差 时 ， 得 到 的 是 通过 原点 的 分 类 线 。 有些 可 以 用 带 偏差 解决 的 问 
颌 ， 不 带 偏差 的 网 络 则 解决 不 了 。 

熟悉 图 形 解释 有 助 于 我 们 理解 和 掌握 感知 器 的 工作 原理 。 当 然 在 实际 应 用 时 ， 权 值 的 
求解 全 都 是 由 计算 机 来 完成 的 


2.3 感知 器 的 学 习 规则 


学 习 规 则 是 用 来 计算 新 的 权 值 答 阵 丸 及 新 的 偏差 B 的 算法 。 感知 器 利用 其 学 习 规则 来 
调整 网 络 的 权 值 ， 以 便 使 该 网 络 对 输入 矢量 的 响应 达到 数值 为 0 或 1 的 目标 输出 

对 于 输入 矢量 P ， 输 出 矢量 4 ， 目 标 矢量 为 了 的 感知 器 网 络 ， 感 知 器 的 学 习 规则 是 根 
据 以 下 输出 矢量 可 能 出 现 的 几 种 情况 来 进行 参数 调整 的 。 

1 ) 如 果 第 ;个 神经 元 的 输出 是 正确 的 ， 即 有 : ai = 刁 ， 那 么 与 第 i 个 神经 元 联接 的 权 
值 w 和 偏差 值 户 保持 不 变 ; 

2 ) 如 果 第 ;个 神经 元 的 输出 是 0 ， 但 期 望 输出 为 1 ， 即 有 ai = 0， 而 # =1， 此 时 权 
值 修正 算法 为 新 的 权 值 w 为 旧 的 权 值 w 加 上 输入 矢量 户 ; 类 似 的 ， 新 的 偏差 记 为 旧 
偏差 乌 加 上 它 的 输入 1 ; 

3 ) 如 果 第 ;个 神经 元 的 输出 为 1 ， 但 期 望 输出 为 0 ， 即 有 w=1 ， 而 #=0 ， 此 时 权 什 
修正 算法 为 : 新 的 权 值 wy 等 于 旧 的 权 值 w 减 去 输入 矢量 广 ; 类 似 的 ， 新 的 偏差 记 为 旧 偏 
差 访 减 去 1 ， 
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由 上 面 分 析 可 以 看 出 感知 器 学 习 规则 的 实质 为 : 权 值 的 变化 量 等 于 正 负 输 入 矢量 。 具 


体 算 法 总 结 如 下 。 
对 于 所 有 的 和 户 F = 1, 2，…s; 7 = 1 2，…,r ， 感 知 器 修正 权 值 公式 为 : 
Ai = 全 -大 )xPP/ (2.4) 
Ab =(-y)x1 
用 矢量 矩阵 来 表示 为 : 
砚 = 卫 +EP7 (2.5) 
已 = 妃 + 瑟 


此 处 ， 五 为 误差 矢量 ， 有 天 =7T-4 . 
感知 咒 的 学 习 规 则 属于 梯度 下 降 法 ， 该 法 则 已 被 证 明 : 如 果 解 存在 ， 则 算法 在 有 限 次 
的 循环 欠 代 后 可 以 收敛 到 正确 的 目标 矢量 . 
上 述 用 来 修正 感知 器 权 值 的 学 习 算 法 在 MATLAB 神经 网 络 工具 箱 中 已 编 成 了 子 程 
序 ， 成 为 一 个 名 为 learnp.m 的 函数 。 只 要 直接 调用 此 函数 ， 即 可 立即 获得 权 值 的 修正 量 ， 
此 函数 所 需要 的 输入 变量 为 : 输入 、 输 出 矢量 和 目标 矢量 : P 、A 和 了 .调用 命令 为 : 
[dqwW,dB ] =learnp (P,A,T); 


2.4 网 络 的 训练 


要 使 前 向 神经 网 络 模型 实现 某 种 功能 ， 必 须 对 它 进 行 训练 ， 让 它 逐 步 学 会 要 做 的 事情 ， 
并 把 所 学 到 的 知识 记忆 在 网 络 的 权 值 中 。 人 工 神经 网 络 权 值 的 确定 不 是 通过 计算 ， 而 是 通 
过 网 络 的 自身 训练 来 完成 的 。 这 也 是 人 工 神经 网 络 在 解决 问题 的 方式 上 与 其 他 方法 的 最 大 
不 同 点 。 借 助 于 计算 机 的 帮助 ， 几 百 次 甚至 上 千 次 的 网 络 权 值 的 训练 与 调整 过 程 能 够 在 很 
短 的 时 间 内 完成 。 

感知 器 的 训练 过 程 如 下 : 

在 输入 矢量 忆 的 作用 下 ， 计 算 网 络 的 实际 输出 4 ， 并 与 相应 的 目标 矢量 7 进行 比较 ， 
检查 4 是 否 等 于 7 ， 然 后 用 比较 后 的 误差 已 ， 根 据 学 习 规 则 进行 权 值 和 偏差 的 调整 ， 重新 
计算 网 络 在 新 权 值 作用 下 的 输 人 ， 重 复权 值 调整 过 程 ， 直 到 网 络 的 输出 4 等 于 目标 矢量 7 
或 训练 次 数 达 到 事先 设置 的 最 大 值 时 训练 结束 。 

若 网 络 训练 成 功 ， 那 么 训练 后 的 网 络 在 网 络 权 值 的 作用 下 ， 对 于 被 训练 的 每 一 组 输入 
矢量 都 能 够 产生 一 组 对 应 的 期 望 输出 ; 若 在 设置 的 最 大 训练 次 数 内 ， 网 络 未 能 够 完成 在 给 
定 的 输入 矢量 己 的 作用 下 ， 使 4 = 了 的 目标 ， 则 可 以 通过 改 用 新 的 初始 权 值 与 偏差 ， 并 采 
用 更 长 训练 次 数 进行 训练 ， 或 分 析 一 下 所 要 解决 的 问题 是 否 属于 那 种 由 于 感知 器 本 身 的 限 
制 而 无 法 解决 的 一 类 。 

感知 器 设计 训练 的 步骤 可 总 结 如 下 : 

1 ) 对 于 所 要 解决 的 问题 ， 确 定 输入 矢量 P ， 目 标 矢量 了 ， 并 由 此 确定 各 矢量 的 维 数 
以 及 确定 网 络 结构 大 小 的 神经 元 数目 : > ， 和 4 ; 

2 ) 参数 初始 化 : 





a) 赋 给 权 矢 量 1 在 (-1 B) 的 随机 非 零 初始 值 ; 
b) 给 出 最 大 训练 循环 次 数 max_epoch ; 
3 ) 网 络 表 达 式 : 根据 输入 和 失 量 已 以 及 最 新 权 矢量 多 ， 计 算 网 络 输出 矢量 4 ; 
4 ) 检查 : 检查 输出 矢量 4 与 目标 矢量 了 是 否 相 同 ， 如 果 是 ， 或 已 达 最 大 循环 次 数 ， 
训练 结束 ， 否 则 转 人 3S ) ; 
5 ) 学 习 : 根据 (2.5) 式 感知 器 的 学 习 规则 调整 权 矢 量 ， 并 返回 3)。 
.下面 给 出 例题 来 进一步 了 解 感知 器 解决 问题 的 方式 ， 掌 握 设 计 训练 感知 器 的 过 程 。 
【 例 2. 1 〗 考 虑 一 个 简单 的 分 类 问题 。 
设计 一 个 感知 器 , 将 二 维 的 四 组 输入 矢量 分 成 两 类 。 
输入 矢量 为 : P=[-05 -05 0.3 0 
-0.5 0.5 -0.5 1]; 
目标 矢量 为 : 7T=[10 10 0 0] 
解 : 
通过 前 面 对 感 知 器 图 解 的 分 析 可 知 ， 感 知 器 对 输入 矢量 的 分 类 实质 是 在 输入 矢量 空间 
用 W*P+B=O0 的 分 割 界 对 输 和 人 矢量 进行 切割 而 达到 分 类 的 目的 .根据 这 个 原理 ， 对 此 例 
中 二 维 四 组 输入 矢量 的 分 类 问题 ， 可 以 用 下 述 不 等 式 组 来 等 价 表示 出 : 
-0.3w- 0.3wz +wa>0 (使 =1 成 立 ) 
-0.Swi +0.Swz +Ww>0 (使 已 =1 成 立 ) 
0.3mw - 0Sw +wa<0 (使 坊 =0 成 立 ) 
wz2+W3a<0 (使 # =0 成 立 ) 
实际 上 可 以 用 代数 求解 法 来 求 出 上 面 不 等 式 中 的 参数 w ，wz 和 wi 。 经 过 和 迭代 和 约 
简 ， 可 得 到 解 的 范围 为 : 
wi1<0 
08wl < wz < -Wi 
W1713<w3 <-WIl 
W3<-W2 


=-1 
W2 =0 
W3 =-01 

而 当 采 用 感知 器 神经 网 络 来 对 此 题 进行 求解 时 ， 意 味 着 采用 具有 效 值 激活 函数 的 神经 
网 络 ， 按 照 问题 的 要 求 设 计 网 络 的 模型 结构 ， 通 过 训练 网 络 权 值 殉 = [fw wiz ] 和 和 上， 并 根 
据 学 习 算法 和 训练 过 程 进行 程序 编程 ， 然 后 运行 程序 ， 让 网 络 自行 训练 其 权 矢量 ， 直 至 达 
到 不 等 式 组 的 要 求 . 

八 于 输入 和 输出 目标 矢量 已 由 问题 本 身 确 定 ， 所 以 所 需 实现 其 分 类 功能 的 感知 器 网 络 


结构 的 输 人 节点 > ， 以 及 输出 节点 数 * 已 被 问题 所 确定 而 不 能 任意 设置 。 
根据 题 意 ， 网 络 结构 图 如 图 2.5 所 示 。 


一 组 可 能 解 为 : 
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da=1234 
图 2.5 网 络 结构 图 


由 此 可 见 ， 对 于 单 层 网 络 ,网 络 的 输入 神经 元 数 ”和 输出 神经 元 数 * 分 别 由 输入 矢量 忆 
和 目标 矢量 了 唯一 确定 。 网 络 的 权 和 矩阵 的 维 数 为 : 殉 ',.- ， 有 .1I 权 值 总 数 为 9 x 个 ， 偏 
差 个 数 为 个 。 

在 确定 了 网 络 结构 并 设置 了 最 大 循环 次 数 和 赋予 权 值 初始 值 后 ， 设 计 者 可 方便 地 利用 
MATLAB ， 根 据 题 意 以 及 感知 器 的 学 习 、 训 练 过 程 来 编写 自己 的 程序 .下面 是 对 【 例 2.1 】 
所 编写 的 网 络 权 值 训练 用 的 MATLAB 程序 : 


% percepl.m 

% 

P= [-0.5 -0.5 0.3 0; -0.5 0.5 -0.5 1 ]; T=[1100]; 
% 初始 化 

[R,Q ]= size (P); [S,Q ] =size (T); 
W=rands(S,R); B =rands(S, ] ); 

Imax_epoch = 20; 


% 表达 式 
A=hardlim ( W#P,B ); 色 求 网 络 输出 
for epoch = 1 : max_epoch 9% 开始 循环 训练 、 修 正 权 值 过 程 
% 检查 
这 all(A==T) % 当 A=T 时 结束 
epoch = epoch - 1; 
break 
end 
% 学 习 
[dW, dB ]=learnp (P,A,TI); % 感知 器 学 习 公 式 
W=W+dWi; 
B=B+dB; 
A=hardlim (W+*P,B ); 多 计算 权 值 修正 后 的 网 络 输出 
end % 程序 结束 


以 上 就 是 根据 前 面 所 冰 述 的 感知 器 训练 的 三 个 步 双 : 表达 式 、 检 查 和 学 习 而 编写 的 
MATLAB 网 络 设计 的 程序 . 





对 于 本 例 也 可 以 在 二 维 平面 坐标 中 给 出 求解 过 程 的 图 形 表示 . 图 2.6 给 出 了 横 轴 为 已 ， 
纵 轴 为 pz 的 输入 矢量 平面 ， 以 及 输入 矢量 尸 所 处 的 位 置 。 根据 目 标 矢量 将 期 望 为 1 输出 的 
输 和 人 分 量 用 “+” 表 示 出 ， 而 目标 为 0 输出 的 输入 分 量 用 “b ”表示 出 。 
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图 2.6 输入 矢量 位 置 图 图 2.7 感知 器 训练 过 程 记 录 


图 2.7 给 出 4 次 训练 过 程 中 由 权 值 组 成 的 W*P + 5 = 0 直线 和 最 终 的 训练 达到 目标 后 
的 直线 ， 其 中 ， 点 划 线 为 初始 权 值 形成 的 直线 ; 虚线 为 前 三 次 权 值 修正 后 划分 的 结果 ; 显 
然 , “o” 和 “+ ”部 分 没有 被 合适 的 分 割 开 。 实 线 是 第 4 次 权 值 修正 后 达到 目标 的 结果 。 

本 例题 中 网 络 初始 随机 权 值 为 : 

W0= [-0.8161 0.3078]; BO = [-0.1680 ]; 
4 次 训练 次 后 的 权 值 为 : 
W=[-2.6161 -0.6922]; B = -0.1680 ; 

只 要 用 下 列 命令 即 可 得 到 对 网 络 结果 的 验证 : 
》A=hardlim ( W*P,B ) 
A= 

1100 
图 2.8 给 出 网 络 训练 过 程 中 的 权 值 和 偏差 变化 记录 , 其 中 , 横 轴 变量 为 训练 次 数 epoch ， 
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Epoch 
图 2.8 权 值 和 偏差 变化 记录 
感知 器 对 于 不 同 的 初始 条 件 可 能 得 到 不 同 的 结果 .对 【 例 2.1 】 用 不 同 的 初始 条 件 重 
新 运行 程序 进行 训练 ， 同 样 可 以 解决 问题 ， 但 得 到 不 同 于 前 一 次 的 权 值 ， 例 如 对 于 下 列 权 
矢量 和 偏差 值 : 
W =([-2.1642 -0.0744] 





B = -0.6433 

也 是 网 络 的 一 个 解 , 但 在 输入 平面 中 对 输入 矢量 进行 划分 的 直线 W*P+B=0 的 位 置 与 
前 面 的 是 不 同 的 。 

【 例 2. 2 】 多 个 神经 元 分 类 ， 又 称 模式 联想 。 

若 将 【 例 2. 1 】 的 输入 矢量 和 目标 矢量 增加 为 10 组 的 二 元 矩阵 ， 即 输入 矢量 为 : 

PP=f0.1 07 08 08 10 0.3 00 -0.3 -0.$ -1.$; 

12 1.38 1.6 0.6 0.8 0.$ 0.2 0.8 -1 -1.3]; 

所 对 应 的 10 组 二 元 目标 矢量 为 : 

7T=[1 1 1001 1 1 0 0 

0000011 1 1 1 

由 于 增加 了 矢量 数组 ， 必 然 增加 了 解决 问题 的 复杂 程度 。 这 个 问题 要 是 用 一 般 的 方法 
来 解决 是 相当 困难 和 费时 的 ， 它 需要 解 一 个 具有 6 个 变量 的 20 个 约束 不 等 式 。 而 通过 感知 
器 来 解 此 问题 就 显示 出 它 的 优越 性 。 完 全 与 【 例 2.1 〗】 程 序 相同 ， 只 要 输入 新 的 已 和 了 ， 
重新 运行 程序 ， 即 可 得 出 训练 的 结果 . 

根据 输入 矢量 和 目标 矢量 可 得 : = 2,s = 2, 由 此 可 
以 画 出 网 络 结构 如 图 2.9 所 示 。 

本 题 用 图 解法 解释 为 : 求 感知 器 网 络 权 值 到 和 妃 ， 局 < 7 
使 由 Wx*P +8B=0 构 成 的 两 条 直线 将 输入 矢量 所 在 平面 分 
割 成 四 个 区 域 。 图 2.10 给 出 了 输入 矢量 与 不 同 的 目标 矢 
量 所 对 应 的 不 同 关 系 , 不 同 的 目标 矢量 分 别 用 四 种 符号 表 7。 
示 : 00: o; 01:*; 10: + 和 11: x。 图 29 所 设计 网 络 结构 图 

虽然 【 例 2.2 本 的 求解 过 程 复杂 了 许多 ， 但 用 MATLAB 来 对 其 进行 训练 和 设计 与 【 例 
2.1 〗】 没 有 什么 区 别 。 若 我 们 再 利用 工具 箱 的 特长 ， 则 显得 更 加 简单 。 在 神经 网 络 工具 箱 中 
有 一 个 集 感知 器 训练 过 程 中 的 表达 式 、 检 查 和 权 值 学 习 为 一 体 的 函数 : trainp.m 。 通 过 此 
函数 ， 可 直接 给 出 最 终 的 训练 结果 友和 了 值 ， 以 及 所 花费 的 循环 次 数 epochs 。 这 就 允许 
我 们 腾 出 精力 来 增加 一 些 实时 监视 程序 或 作 图 程序 , 从 而 使 得 训练 过 程 更 加 生动 .【 例 2.2 】 
的 训练 程序 可 编写 如 下 : 





% percep2.m 

% 

% 初始 化 、 赋 值 

P = [0.1 0.7 0.8 0.8 1.0 0.3 0.0 -0.3 -0.5 -1.5; 1.2 1.8 1.6 0.6 0.8 0.5 0.2 0.8 -1.5 -1.3]; 
T=[l1l1l10011100;0000011111]; 

[R,Q]=size (P)) [SQ]=size (TD [W0,B0]=rands(S,R ); 
disp_freq = 1; 多 每 训练 一 次 ， 显 示 一 次 
max_epoch = 20; 多 设置 最 大 循环 次 数 
TP=[disp_freq max_epoch]; % 给 TP 赋 值 

多 训练 网 络 、 修 正 权 值 

[ W, B, epochs ] = trainp ( W0, B0,P,T,TP) 


二 3 





% 绘制 训练 后 的 分 类 结果 


V=[-22-22]; 多 取 一 数组 限制 坐标 数值 大 小 

plotv (PT, V % 在 输入 矢量 空间 绘画 输入 矢量 和 目标 矢量 的 位 置 
axis (equal")， % 令 横 坐标 和 纵 坐 标 等 距离 长 度 

title ('Input Vector Graph ”)， % 写 图 标题 

xlabel ('p1 7)， % 写 横 轴 标 题 

ylabel (p27)， 儿 写 纵 轴 标 题 

hold on % 当前 图 形 保护 模式 开 

plotpc ( W0, B0,，- % 绘制 由 WO 和 B0 在 输入 平面 中 形成 的 初始 分 类 线 
plotpc ( W,B ); % 绘制 由 W 和 了 B 在 输入 平面 中 形成 的 最 终 分 类 线 
hold off 多 当前 图 形 保护 模式 关闭 

end 


当 此 程序 运行 后 ， 每 修正 一 次 权 值 后 ， 在 工作 界面 中 显示 一 次 已 循环 的 次 数 ， 并 在 训 
练 完 成 后 显示 出 最 终 权 值 到 和 好 以 及 所 花费 的 循环 总 数 . 另外 还 绘制 出 输入 矢量 在 输入 平 
面 中 的 位 置 以 及 由 训练 后 的 多 和 妃 值 组 成 的 W*P +B= 0 直线 在 输入 平面 中 的 分 类 结果 ， 

经 过 10 次 训练 调整 神经 元 的 权 矢 量 ， 网 络 将 输入 矢量 分 成 期 望 的 四 类 如 图 2.11 所 示 。 
其 中 虚线 为 初始 值 ， 实 线 为 最 后 的 结果 .网 络 最 终 权 矢量 为 : 


W = [-4.7926 5.9048; 
-3.2567 -2.6339]; 

B = [-0.9311; 2.9970] 

所 对 应 的 网 络 初始 权 值 为 : 


W0 = [-0.6926 0.6048; 0.1433 -0.9339]; B0 = [0.0689; 0.0030]; 
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图 2.10 ”输入 矢量 目标 矢量 对 应 的 关系 2.11 网 络 训练 结果 图 


对 于 由 不 同 的 输入 神经 元 > 和 输出 神经 元 * 组 成 的 感知 器 ， 当 采用 输入 矢量 空间 的 作 





图 法 来 解释 网 络 功能 时 ， 其 一 般 情况 可 以 总 结 如 下 : 

1) 当 输 入 为 单个 元 素 ， 输 出 也 为 单个 神经 元 ， 即 = 1 ，8 = 1 时 ， 感 知 器 是 以 点 为 分 
割 界 ; 

2) 当 输 入 为 二 元 素 ， 即 7= 2 时 ， 感 知 器 是 以 线 为 分 割 界 ; 

其 中 : “” 当 8 = 1 ， 分 割 线 为 一 条 线 ; 

3 = 2 ， 分 割 线 为 两 条 线 。 

依 此 类 推 .在 这 里 输出 神经 元 数 * 决定 分 割 线 数 ， 可 分 成 的 种 类 数 为 守 ; 

3) 当 输 和 为 三 元 素 ， 即 ” = 3 时 ， 感 知 器 是 以 面 为 分 割 界 ， 而 且 输 出 神经 元 数 * 为 分 
割 面 数 ， 


2.$ 感知 器 的 局 限 性 


由 于 感知 器 自身 结构 的 限制 ， 使 其 应 用 被 限制 在 一 定 的 范围 内 。 所 以 在 采用 感知 器 解 
决 具体 问题 时 ， 必 须 时 刻 考 虑 到 其 特点 。 一 般 来 说 ， 感 知 器 有 以 下 局 限 性 : 

1) 由 于 感知 器 的 激活 函数 采用 的 是 净值 函数 ， 输 出 矢量 只 能 取 0 或 1 ， 所 以 只 能 用 它 
来 解决 简单 的 分 类 问题 ; 

2) 感知 器 仅 能 够 线性 地 将 输入 矢量 进行 分 类 。 如 果 用 一 条 直线 或 一 个 平面 把 一 组 输入 
矢量 正确 地 划分 为 期 望 的 类 别 ， 则 称 该 输入 /输出 矢量 是 对 线性 可 分 的 ， 否 则 为 线性 不 可 
分 。 那 么 ， 利 用 感知 器 将 永远 也 达 不 到 期 望 输出 的 网 络 权 和 矩阵。 所 以 用 软件 设计 感知 器 对 
权 值 进行 训练 时 ， 需 要 设置 一 个 最 大 循环 次 数 。 如 果 在 达到 该 最 大 循环 次 数 后 ， 还 没有 达 
到 期 望 的 目标 ， 训 练 则 停止 ， 以 便 不 使 不 可 分 的 矢量 占用 无 限 循环 的 训练 时 间 。 不 过 应 当 
提醒 的 是 ， 理 论 上 已 经 证 明 ， 只 要 输入 矢量 是 线性 可 分 的 ， 感 知 器 在 有 限 的 时 间 内 总 能 达 
到 目标 矢量 ; 

3) 感知 器 还 有 另外 一 个 问题 ， 当 输入 矢量 中 有 一 个 数 比 其 他 数 都 大 或 小 得 很 多 时 ， 可 
能 导致 较 慢 的 收敛 速度 。 比 如 当 输 入 /输出 矢量 分 别 为 : 

尼 = [ -0.5 -0.5 +0.3 -0.1 -80; 
-0.5 10.3 -0.5 +1.0 100]; 
7=[1 1 0 0 了 HU; 

由 于 输入 第 五 组 数 远 远大 于 其 他 输入 数组 ， 这 必然 导致 训练 的 画 难 。 

下 面 给 出 感知 器 面 对 线 性 不 可 分 输入 /和 输出 模式 时 的 情况 。 

【 例 2.3 〗 线 性 不 可 分 输入 矢量 。 

由 于 感知 器 对 输 人 矢量 空间 只 能 线性 地 进行 输出 0 或 工 的 分 类 ， 它 们 只 能 适当 地 划分 
具有 线性 可 分 的 输入 矢量 组 。 如 果 在 输入 矢量 组 和 它 所 对 应 的 0 ，1 目标 之 间 不 能 用 直线 
进行 划分 ， 那 么 感知 器 就 不 能 正确 地 分 类 出 输入 矢量 。 

在 【 例 2.1 】 中 ， 加 入 一 个 新 的 输入 矢量 ， 使 之 成 为 : 

输入 矢量 为 : 已 =[-0.5 -0.5 0.3 0 -0.8; 

0.3 0.$ -0 1 0]; 





目标 矢量 为 : 7=[10 10 0 0 0]; 
可 以 重复 使 用 前 面 的 程序 。 为 了 能 够 让 程序 自己 判断 出 所 做 训练 是 否 有 效 ， 可 以 在 程 
序 中 增加 判断 显示 程序 。 这 只 需要 在 初始 化 阶段 加 入 本 数 fops.m ， 然 后 在 程序 最 后 加 上 : 


fprintt (An Final Network Values : mn ) 
W 
了 B 
fprintf (Trained for %.0f epochs.\n'", epoch ) 
fprintf ('Training took %.0f flops.\m', flops ) 
fprintf ('Nwtwork classifies :… ); 
让 al (hardlim ( W*xP,B )==T) 
disp (Correctly ) 
else 
disp ('Incorrectly. ) 
end 


图 2.12 给 出 了 要 分 类 的 数据 组 的 初始 值 和 训练 40 后 的 结果 。 从 中 可 以 看 出 ， 网 络 没 

有 能 够 解决 问题 。 图 中 实 线 的 结果 为 : 
W=[-2.1912 -1.2975],B = -1.4214 
对 应 网 络 训练 的 初始 权 值 为 : 
Wo = [0.9088 0.7025]; BO0= [-0.4214 ] 

检验 这 组 由 训练 权 矢 量 所 构成 的 感知 器 的 输出 分 类 功能 ， 用 命令 : 
》 A=hardliim(W*P,B) 
人 A= 

10001 


而 T=[11000]。 很 显然 可 以 看 到 在 第 二 和 第 五 个 输入 矢量 上 为 不 正确 的 分 类 。 
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2.12 线性 不 可 分 模式 训练 结果 





在 感知 器 的 应 用 中 ， 这 类 线性 不 可 分 问题 都 可 归结 为 “ 异 或 ”问题 。 下 面 就 来 具体 讨 
论 一 下 这 个 问题 . 


2.6 66 异 或 99 问题 


明 斯 基 等 人 通过 对 单 层 感知 器 的 研究 得 出 结论 : 单 层 感知 器 存在 着 局 限 性 。 他 的 主要 
论据 之 一 就 是 感知 器 不 能 实现 简单 的 “ 异 或 ”逻辑 功能 。 
逻辑 运算 中 的 “ 异 或 ”功能 ， 就 是 当 输 入 两 个 二 进 制 数 ( 0 或 1 ) 均 为 0 或 1 时 ， 输 
出 为 0 ， 只 有 当 两 个 输入 中 有 一 个 为 1 时 ， 输 出 为 1 。 若 希望 用 感知 嚣 来 实现 此 功能 的 操 
作 ， 其 输入 应 为 两 个 二 进 制 数 的 四 种 组 合 ， 目 标 输出 7 为 与 输入 对 应 的 上 述 四 种 输出 的 组 
合 ， 即 
P=[0011; 
0109H; 
7=[0110]; 
所 要 求解 的 是 : 设计 一 个 单 层 感知 器 对 输入 矢量 按期 望 的 输出 矢量 进行 分 类 。 
我 们 已 经 知道 ， 当 输入 为 二 元 素 时 ， 其 分 割 界 为 直线 ， 可 以 用 来 进行 划分 的 直线 是 数 
目 与 感知 器 输出 神经 元 的 数 相等 。“ 异 或 ”问题 则 是 要 求 用 一 条 直线 将 平面 上 的 四 个 点 分 
成 两 类 。 而 此 四 点 在 输入 矢量 平面 上 的 位 置 如 图 2.13 所 示 ， 其 中 ，“x ”表示 希望 将 其 点 
分 为 1 类 ; “o” 表 示 目 标 输出 为 0 类 。 
很 显然 ， 对 于 这 样 的 四 点 位 置 ， 想 用 一 条 直线 把 同类 期 望 输入 区 分 开 是 不 可 能 的 。 实 
际 上 ， 如 果 我 们 把 工作 做 得 再 详细 点 ， 从 逮 辑 运算 人 手 ， 即 列 出 感知 器 对 所 有 的 四 组 二 元 
素 输入 的 可 能 输出 的 情况 ， 一 共 可 得 1 6 种 情况 ， 可 以 分 别 代表 “与 ”、“ 或 ”、“ 非 ”、 
“与 非 ”、“ 或 非 ”、“ 蜡 或 ”、“ 蜡 或 非 ”等 逻辑 功能 。 用 一 条 直线 ， 将 平面 分 成 两 部 
分 ， 分 别 对 1 6 种 情况 进行 划分 。 结 果 是 ， 1 6 种 功能 中 只 有 “ 异 或 ”和 ““ 异 或 非 ”是 线 
性 不 可 分 的 ， 其 他 1 4 种 逻辑 功能 均 为 线性 可 分 ， 它 们 都 可 以 用 单 层 感知 器 来 实现 。 
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图 213  “ 异 或 ”问题 的 图 形 表 示 





输入 矢量 : 
P=[0011; 
0101]， 
16 种 目标 矢量 ; 
T1=[00001j 
72=[0001] 
73=[0010] 


76=[0101] 
77=[0110] 一 蜡 或 


T9=[1000] 
710=[1001] 一 异 或 非 


ZI16=[1111] 
我 们 不 禁 要 问 : 在 有 限 的 逻辑 运算 中 ， 哪 些 是 线性 可 分 的 呢 ? 
我 们 再 来 考察 一 下 最 简单 的 单个 元 素 输入 感知 器 时 可 能 有 的 所 有 逻辑 功能 。 此 时 ， 输 
人 有 两 种 可 能 ， 输 出 有 四 种 情况 ， 即 


输入 矢量 : 
P=[I0 了 Hi; 
4 种 目标 矢量 : 
7T1=[00]; 
7T2=[01]; 
73=[10]; 
74=[11]; 


因为 只 有 一 个 输入 ， 其 分 割 界 为 以 输入 忆 为 坐标 线 上 的 点 ， 四 种 功能 可 表示 为 坐标 轴 
上 在 0 和 上 1 点 上 的 不 同 功能 的 组 合 如 图 2.14 所 示 。 我 们 用 “o ”表示 0，“x” 表 示 1。 
则 四 种 功能 可 表示 为 : 


下 一 
0 1 


7 


74 一 一 6 二 一 一 天 一 一， 也 
0 ] 


图 2.14 ” 单 输入 变量 时 的 四 种 分 类 方案 





所 要 做 的 是 ， 在 已 坐标 上 选 一 点 ， 图 中 用 黑 点 表示 ， 将 每 一 功能 分 成 两 类 。 这 实际 上 
是 要 分 别 解 四 组 不 同 的 分 类 问题 。 每 一 次 分 类 中 有 一 个 岁 和 一 个 襄 ， 通 过 两 个 约束 不 等 式 
来 进行 调节 。 所 以 这 是 个 完全 有 解 的 线性 代数 问题 ， 实 际 上 ， 从 图 示 中 很 明显 地 可 以 看 出 ， 
只 要 调整 y 和 必 就 很 容易 找到 满足 目标 矢量 的 分 界 点 。 

同 理 ， 当 输入 具有 3 个 元 素 时 ， 可 构成 8 种 不 同 组 合 ， 此 时 的 期 望 目标 7 可 有 2 5 6 
种 功能 。 研 究 表明 ， 其 中 只 有 1 0 4 种 是 线性 可 分 的 。 

从 以 上 的 例子 可 以 得 出 结论 ， 当 网 络 具 有 r 个 二 进 制 输入 分 量 时 ， 最 大 不 重复 的 输入 


矢量 有 2 组 ， 其 输出 矢量 所 能 代表 的 逻辑 功能 总 数 为 22 ， 表 2.1 给 出 了 不 同 输入 时 ， 
线性 可 分 的 功能 数 . 


表 2.1 不 同 输入 -时 线性 可 分 的 功能 数 





由 表 2.1 可 知 ， 对 于 给 定 输入 矢量 所 设计 出 的 单 层 感知 器 ， 只 对 一 部 分 输出 功能 是 线 
性 可 分 的 。 随 着 了 的 增加 ， 线 性 不 可 分 的 功能 数 急剧 增加 。 因 此 ， 当 给 定 一 个 输入 /和 输出 矢 
量 对 时 ， 首 先 必 须 判别 该 功能 是 否 是 线性 可 分 的 . 遗憾 的 是 ， 至 今 为 止 并 没有 办 法 来 判定 
这 种 线性 可 分 性 . 尤其 当 输 入 矢量 增多 时 ， 更 是 难以 确定 。 一 般 只 有 通过 用 一 定 的 循环 次 
数 对 网 络 进行 训练 而 判定 它 是 否 能 被 线性 可 分 。 所 以 ， 单 层 神经 元 感知 器 只 能 用 于 简单 的 
分 类 问题 。 


2.7 解决 线性 可 分 性 限制 的 办 法 


感知 器 的 线性 可 分 性 限制 是 个 严重 的 问题 。6 0 年 代 末 ， 人 们 曾 致力 于 该 问题 的 研究 ， 
并 找到 了 解决 问题 的 办 法 ， 即 变 单 层 网 络 结构 为 多 层 网 络 结构 。 这 实际 上 是 把 感知 器 的 概 
念 扩 展 化 了 。 这样 对 于 “ 蜡 或 ”问题 ， 我 们 可 以 用 两 层 网 络 结构 ， 并 在 隐 含 层 中 采用 两 个 
神经 元 ， 即 用 两 条 判决 直线 s1 和 s2 来 解决 ， 如 图 2.15 所 示 。 

使 s1 线 下 部 分 为 1 ， 线 上 部 分 为 0 ， 而 s2 线 的 上 部 为 1 ， 下 部 为 0 ， 而 在 输出 层 中 
使 图 中 阴影 部 分 为 0 ， 即 可 使 “ 异 或 ”功能 得 以 实现 ， 而 且 其 实现 的 可 能 有 许多 种 。 研 究 
表明 ， 两 层 的 阀 值 网 络 可 以 实现 任意 的 二 值 膛 辑 函 数 ， 且 输入 值 不 仅 限于 二 进 制 数 ， 可 以 
是 连续 数值 . 

对 于 多 层 感知 器 的 权 值 训练 与 学 习 则 需要 用 到 误差 的 反 向 传播 法 ， 即 后 面 将 要 学 习 的 
BP 算法 。 本 书 中 将 具有 隐 含 层 的 网 络 归 为 反 向 传播 网 络 类 而 不 再 称 为 多 层 感 知 器 。 








(a) 网 络 结构 图 (b) 输入 矢量 平面 图 形 
图 2.15 “ 异 或 ”问题 的 一 种 解决 方案 


2.8 ”本章 小 结 


1 ) 感知 器 在 分 类 问题 上 是 有 效 的 。 它 可 以 很 好 的 划分 线性 可 分 的 输入 矢量 ， 感 知 器 
网 络 的 设计 完全 由 需要 解决 的 问题 所 限制 。 具 有 单 层 的 阀 值 神经 网 络 ， 其 输入 节点 和 神经 
元 数 是 由 输入 矢量 和 输出 矢量 所 确定 的 ; 

2 ) 训练 时 间 对 突变 矢量 是 敏感 的 。 但 突变 输入 矢量 不 妨碍 网 络 达到 目标 。 

感知 器 在 解决 实际 问题 时 ， 必 须 在 输入 矢量 是 线性 可 分 时 才 有 效 ， 这 是 很 难得 到 的 情 
形 。 虽 然 感知 器 有 上 述 局 限 性 ， 但 它 在 神经 网 络 研究 中 有 着 重要 的 意义 和 地 位 。 它 提出 了 
自 组 织 自学 习 的 思想 。 对 能 够 解决 的 问题 有 一 个 收敛 的 算法 ， 并 从 数学 上 给 出 了 严格 的 证 
明 。 对 这 种 算法 性 质 的 研究 仍 是 至 今 存在 的 多 种 算法 中 最 清楚 的 算法 之 一 。 因 此 它 不 仅 引 
起 了 众多 学 者 对 人 工 神经 网 络 研究 的 兴趣 ， 推 动 了 人 工 神 经 网 络 研究 的 发 展 ， 而 且 后 来 的 
许多 种 网 络 模型 都 是 在 这 种 指导 思想 下 建立 起 来 并 改进 推广 的 。 


习 题 
〖 2.1 〗 利用 MATLAB 对 下 列 具有 突变 矢量 进行 编程 以 观察 其 对 收敛 速度 的 影响 。 
已 = [-0.5 -0.5 10.3 -0.1 -80; 
-0.5 10.5 -0.5 +1.0 100]; 
7=[1 1 0 0 1 
〖 2.2 1 采用 单 层 感知 器 的 权 值 训练 公式 ， 通 过 固定 隐 含 层 的 目标 输出 为 线性 可 分 矢 
量 ， 设 计 一 个 两 层 感知 器 来 解决 “ 异 或 ”问题 ， 隐 含 层 用 两 个 神经 元 。 





第 三 章 ” 目 适应 线性 元 件 


自 适应 线性 元 件 (Adaptive Linear Element ,简称 Adaline ) 也 是 早期 神经 网 络 模型 之 一 ， 
它 是 由 威 德 罗 和 和 霍 夫 首先 提出 的 。 它 与 感知 器 的 主要 不 同 之 处 在 于 其 神经 元 有 一 个 线性 激 
活 函 数 ， 这 允许 输出 可 以 是 任意 值 ， 而 不 仅仅 只 是 像 感知 器 中 那样 只 能 取 0 或 1 。 另 外 ， 
它 采 用 的 是 WwW-H 学 习 法 则 ， 也 称 最 小 均 方差 LMS) 规 则 对 权 值 进行 训练 ， 从 而 能 够 得 到 比 
感知 器 更 快 的 收敛 速度 和 更 高 的 精度 。 

自 适 应 线性 元 件 的 主要 用 途 是 线性 逼近 一 个 函数 式 而 进行 模式 联想 。 另 外 ， 它 还 适用 
于 信和 号 处 理 滤 波 、 预 测 、 模 型 识别 和 控制 。 


3.1 自 适应 线性 神经 元 模型 和 结构 


一 个 线性 的 具有 r 个 输入 的 自 适应 线性 神经 元 模型 如 下 图 所 示 。 这 个 神经 元 有 一 个 线 
性 激活 函数 ， 被 称 为 Adaline 如 图 3.1(a) 所 示 。 和 感知 器 一 样 ， 偏 差 可 以 用 来 作为 网 络 的 一 
个 可 调 参数 ， 提 供 额外 可 调 的 自由 变量 以 获得 期 望 的 网 络 特性 。 线 性 神经 元 可 以 训练 学 习 
一 个 与 之 对 应 的 输入 /和 输出 的 函数 关系 ， 或 线性 逼近 任意 一 个 非 线性 函数 ， 但 它 不 能 产生 任 
何 非 线性 的 计算 特性 。 





(a) Adaline Cb) Madaline 
图 3.1 自 适 应 线性 神经 网 络 的 结构 


当 自 适应 线性 网 络 由 * 个 神经 元 相 并 联 形成 一 层 网 络 ， 此 自 适应 线性 神经 网 络 又 称 为 
Madaline 如 图 3.1(b) 所 示 。 

W-H 规则 仅 能 够 训练 单 层 网 络 ， 但 这 并 不 是 什么 严重 问题 。 如 第 一 章 所 述 ， 单 层 线性 
网 络 与 多 层 线性 网 络 具 有 同样 的 能 力 ， 即 对 于 每 一 个 多 层 线性 网 络 ， 都 具有 一 个 等 效 的 单 
层 线性 网 络 与 之 对 应 。 在 反 向 传播 法 产生 以 后 , 威 德 罗 又 将 其 自 适应 线性 网 络 扩展 成 多 层 ， 
甚至 将 激活 函数 也 扩展 成 非 线性 的 了 。 





3.2 W-H 学 习 规则 


W- 卫 学 习 规则 是 由 威 德 罗 和 霍 夫 提出 的 用 来 修正 权 矢 量 的 学 习 规则 ， 所 以 用 他 们 两 人 
姓氏 的 第 一 个 字母 来 命名 . 采用 W-H 学 习 规 则 可 以 用 来 训练 一 层 网 络 的 权 值 和 偏差 使 之 线 
性 地 台 近 一 个 函数 式 而 进行 模式 联想 ( Pattermn Association ) 。 

定义 一 个 线性 网 络 的 输出 误差 函数 为 : 


BY,B)=3 区 - 4 -3 区 - WP (3.1) 


由 (3.1) 式 可 以 看 出 : 线性 网 络 具有 抛物 线 型 误差 画 数 所 形成 的 误差 表面 ， 所 以 只 有 一 
个 误差 最 小 值 。 通 过 W- 碧 学习 规则 来 计算 权 值 和 偏差 的 变化 ， 并 使 网 络 误差 的 平方 和 最 小 
化 ， 总 能 够 训练 一 个 网 络 的 误差 趋 于 这 个 最 小 值 。 另 外 很 显然 ， E(W.B) 只 取决 于 网 络 的 权 
值 及 目标 矢量 。 我 们 的 目的 是 通过 调节 权 矢 量 ， 使 BCW,B) 达 到 最 小 值 。 所 以 在 给 定 BEC.B) 
后 ， 利 用 W-H 学 习 规则 修正 权 矢 量 和 偏差 矢量 ， 使 EC(W,B) 从 误差 空间 的 某 一 点 开始 , 沿 着 
E(W,B) 的 斜面 向 下 滑行 。 根 据 梯 度 下 降 法 ， 权 矢量 的 修正 值 正 比 于 当前 位 置 上 BE(V.B) 的 梯 
度 ， 对 于 第 i 个 输出 节点 有 : 


Am =-73 = 1-a 功 GJ) 
或 表示 为 : 
Ai =71 6i 忆 (3.3) 
Ap =76 
这 里 8; 定义 为 第 个 输出 节点 的 误差: 
SR G.4) 


(3.3) 式 称 为 W-H 学 习 规则 ， 又 叫 5 规则 , 或 为 最 小 均 方 差 算法 LMS)。 W-H 学 习 规则 
的 权 值 变化 量 正 比 于 网 络 的 输出 误差 及 网 络 的 输入 矢量 。 它 不 需求 导数 ， 所 以 算法 简单 ， 
又 具有 收敛 速度 快 和 精度 高 的 优点 。 
(3.3) 式 中 的 7 为 学 习 速 率 。 在 一 般 的 实际 运用 中 ， 实 践 表 明 ，7 通 常 取 一 接近 1 的 数 ， 
或 取 值 为 : 
> 1 
max[det(P* P7 放 ] 9 
这 样 的 选择 可 以 达到 既 快速 又 正确 的 结果 。 
学 习 速 率 的 这 一 取 法 在 神经 网 络 工具 箱 中 用 函数 maxlinlr.m 来 实现 。(3.5) 式 可 实现 
为 : 
I = 0.99* maxlinlr (P,1 )， 
其 中 Ir 为 学 习 速 率 。 
W-H 学 习 规则 的 函数 为 : learnwh.m 来 实现 ， 另 外 ， 加 上 线性 自 适 应 网 络 输出 函数 
purelinum ， 可 以 写 出 W-H 学 习 规 则 的 计算 公式 为 : 


ee :rev :和 priceaaauesailorepoigggggE 和 ore wsctc ae <， 、 





A=purelin (Ws*P ); 

E=T-Ai 

[dW, dB ] = learnwh (了 P, E, Ir ); 
W=W+dW; 

B=B+dB; 


采用 W-H 规则 训练 自 适 应 线性 元 件 使 其 能 够 得 以 收敛 的 必要 条 件 是 被 训练 的 输入 矢 
量 必须 是 线性 独立 的 ， 且 应 适当 地 选择 学 习 速 率 以 防止 产生 振 功 现 象 . 


3.3 网 络 训练 


自 适应 线性 元 件 的 网 络 训练 过 程 可 以 归纳 为 以 下 三 个 步骤 : 

1 ) 表达 : 计算 训练 的 输出 矢量 4 = W*P +83 ， 以 及 与 期 望 输出 之 间 的 误差 已 =T-4; 

2 ) 检查 : 将 网 络 输出 误差 的 平方 和 与 期 望 误差 相 比较 ， 如 果 其 值 小 于 期 望 误 差 ， 或 
训练 已 达到 事先 设 定 的 最 大 训练 次 数 ， 则 停止 训练 ; 否则 继续 ; 

3 ) 学 习 : 采用 W- 也 学 习 规则 计算 新 的 权 值 和 偏差 ， 并 返回 到 1 ) ， 

每 进行 一 次 上 述 三 个 步骤 ， 被 认为 是 完成 一 个 训练 循环 次 数 。 

如 果 网 络 训练 获得 成 功 ， 那 么 当 一 个 不 在 训练 中 的 输入 矢量 输入 到 网 络 中 时 ， 网 络 趋 
于 产生 一 个 与 其 相 联想 的 输出 矢量 。 这 个 特性 被 称 为 泛 化 ， 这 在 本 数 逼近 以 及 输入 矢量 分 
类 的 应 用 中 是 相当 有 用 的 。 

如 果 经 过 训练 ， 网 络 仍 不 能 达到 期 望 目标 ， 可 以 有 两 种 选择 : 或 检查 一 下 所 要 解决 的 
问题 ， 是 否 适用 于 线性 网 络 ; 或 对 网 络 进行 进一步 的 训练 。 

虽然 只 适用 于 线性 网 络 ， W-H 学 习 规 则 仍然 是 重要 的 , 因为 它 展现 了 梯度 下 降 法 是 如 
何 来 训练 一 个 网 络 的 ， 此 概念 后 来 发 展 成 反 向 传播 法 ， 使 之 可 以 训练 多 层 非 线性 网 络 。 

采用 MATLAB 进行 自 适应 线性 元 件 网 络 的 训练 过 程 如 下 : 


% 表达 式 
A=pureln (W#P,B ); 
卫 = 工 -Ai; 
SSE = sumsqr(E ); 锡 求 误差 平方 和 
for epoch = 1 : max_epoch 和 循环 训练 
计 SEE < err_goal 多 比较 误差 
epoch = epoch - 1; 
break 4% 若 满足 期 望 误差 要 求 ， 结 束 训练 
end 


[dW, dB ]=learnwh(P,E,lr); 多 修正 权 值 
W=W+dWi; 
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W =-0.23$4; B = 0.7060 
实际 上 ， 对 于 【 例 3.1 】〗 这 个 简单 的 例题 ， 它 存在 一 个 精确 解 ， 且 可 以 用 解 二 元 一 次 
方程 的 方式 将 己 和 了 值 分 别 对 应 地 代 人 方程 了 = W*P + 好 得 : 
丈 + 妃 =05 
12 友 + 中 =10 
可 解 出 e=7 了 -4=0 的 解 为 : 
W =-0.2273; B = 0.7273 
由 此 看 出 ， 对 于 特别 简单 的 问题 ， 采 用 自 适 应 线性 网 络 的 训练 不 一 定 能 够 得 到 足够 精 
确 的 解 。 因 为 当 训 练 误 差 达到 期 望 误差 值 后 ， 训 练 即 被 终止 。 
对 于 具有 零 误差 的 自 适 应 线性 网 络 ， 即 输入 /输出 矢量 对 存在 着 严格 的 线性 关系 ， 此 时 
的 自 适 应 线性 网 络 的 设计 可 以 采用 工具 箱 中 另外 一 个 名 为 solvelin.m 的 函数 。 以 【 例 3.1 】 
为 例 ， 可 简单 用 下 面 的 命令 : 
》[W,B ]=solvelin (P,T) 
可 立即 得 到 精确 解 : 
W = -0.2273 
B = 0.7273 
然后 可 用 simulin.m 函 数 来 检测 所 设计 的 网 络 : 
》A=simulin(P,W,B) 
A= 
0.5000 1.0000 
还 可 以 用 sumsqr.m 函数 来 求 出 误差 平方 和 : 
》 SSE = sumsqr(T-A) 
SSE = 
0 
可 见 所 设计 网 络 的 误差 为 零 。 
【 例 3.2 】〗 现 在 来 考虑 一 个 较 大 的 多 神经 元 网 络 的 模式 联想 的 设计 问题 。 输 入 矢量 和 
目标 矢量 分 别 为 : 
P=[lL 13 12 -0.3; 
-1 2 3 -0.5 ; 
2 1 -16 0.9]; 
7Y=[03 3 -22 1.4; 
1.1-1.2 1.7 -0.4; 
3 0.2 -1.8 -0.4， 
-1 0.1 -10 0.6]; 
解 : 
由 输入 矢量 和 目标 输出 矢量 可 得 : =3,s=4,qg=4。 所 以 网 络 的 结构 如 图 3.2 所 示 。 
这 个 问题 的 求解 同样 可 以 采用 线性 方程 组 求 出 ， 即 对 每 一 个 输出 节点 写 出 输入 和 输出 
之 间 的 关系 等 式 。 对 于 网 络 每 一 个 输出 神经 元 都 有 4 个 变量 〈 三 个 权 值 加 一 个 偏差 ) ， 有 





四 个 限制 方程 (每 组 输入 对 应 四 个 输出 值 ) 。 这 样 由 四 个 
二 1! 输出 节点 , 共产 生 16 个 方程 , 其 方程 数目 与 权 值 数目 相等 。 


攻 所 以 只 要 输入 矢量 是 线性 独立 的 ， 则 同时 满足 这 16 个 方程 
a， ”的 权 值 存在 且 唯 一 。 对 应 到 网 络 上 来 说 ， 则 存在 零 误差 的 

己 精确 权 值 . 
a 实际 上 要 求 出 这 16 个 方程 的 解 是 需要 花费 一 定 的 时 间 
的 ， 甚 至 是 不 太 容易 的 。 对 于 一 些 实际 问题 ， 常 常 并 不 需 
已 要 求 出 其 完美 的 零 误 差 时 的 解 。 也 就 是 说 允许 存在 一 定 的 
mW43 “4 误差 .在 这 种 情况 下 ， 采 用 自 适 应 线性 网 络 求解 就 显示 出 


图 3.2 ”网 络 设计 的 结构 图 它 的 优越 性 : 因为 它 可 以 很 快 地 训练 出 满足 一 定 要 求 的 网 
络 权 值 。 对 于 有 完美 解 的 网 络 设计 ， 通 过 对 期 望 误差 平方 
和 的 选 定 ， 也 能 通过 加 长 训练 次 数 来 获得 。 
下 面 给 出 【 例 3.2 】 的 设计 程序 。 为 了 便于 对 比 ， 在 程序 中 增加 了 以 下 儿 项 : 
1 ) 训练 前 由 初始 权 值 所 得 到 的 误差 平方 和 ; 
2 ) 最 终 误 差 及 训练 次 数 的 显示 ; 
3 ) 整个 训练 过 程 中 的 网 络 误差 的 记录 显示 ; 
4 ) 最 终 权 值 。 
% wW 人 2.m 
儿 
P=[11.$1.2-0.3;-123-0.3;21-1.60.9 ] ; 
T=([0.$ 3 -2.2 1.4; 1.1 -1.2 1.7 -0.4 ;3 0.2 -1.8 -0.4; -1 0.1 -1.0 0.6]; 


disp_freq = 400; ， % 中 间 不 显示 结果 
Iax_epoch = 400; 

err_goal = 0.001; 

lr = 0.9*maxlinlr (P); 

W =[1.9978 -0.$959 -0.3$17; 1.$543 0.05331 1.3660; 狗 初始 权 值 


1.0672 0.3645 -0.9227; -0.7747 1.3839 -0.3384]; 
B = [0.0746;-0.0642;-0.4256;-0.6433]; 


SSE = sumsqr(T - purelin ( W+P, B )); 未 训练 前 误差 

fprintf ('Before training, sum squared error = %8、\n ， SSE) 

训练 网 络 

flops(0) 

印 =[disp_freq max_epoch err_goal Ir]; % 设置 参数 变量 印 

[W, B ,epochs, errors ] = trainwh ( W,B,P, Tt ); 双 进行 线性 网 络 权 值 训练 
W % 显示 最 终 训 练 权 矢 量 
B % 显示 最 终 训练 偏 差 矢 量 
SSE = sumsqr(T- purelin ( W*P,B ); % 最 终 误 差 


% 显示 结果 并 给 出 结论 


PiIoterr (errorS)， 





fprintf (An After % .0f epochs, sum squared error = % gNnN ,SSE)， 
fprintf (Training took %.0f flopsNn ,有 ops)， 
fprintt (Trained network operates:” ); 
证 SSE < err_goal 
disp ('Adequately. ) 
else 
disp (Inadequately… ) 
end 
end 


运行 wf2.m 在 训练 274 次 循环 后 其 误差 平方 和 达到 0.000993245 ， 而 初始 误差 为 
144.463 .在 整个 训练 过 程 中 误差 的 变化 走向 如 图 3.3 所 示 。 
训练 后 的 网 络 权 值 为 : 
W =[-.2.4612 2.2843 .3.1529; 
2.1895 -1.8132 -2.0605; 
2.0821 -1.2604 0.0480; 
-.16615 0.9779 ”0.9928]; 
B = [ -1.0440;1.2099;-0.4448;-0.3137 ]; 


0 100 200 300 
3.3 网 络 训练 过 程 中 的 误差 记录 


对 于 存在 零 误差 的 精确 权 值 网 络 ， 若 用 函数 solvelin.m 来 求解 ， 则 更 加 简单 如 下 : 
% wWf3.m 
% 
P=[11.31.2-0.3;-123-0.3;21-1.60.9]; 
T=[0.S3 -2.2 1.4; 1.1 -1.2 1.7 -0.4 ;3 0.2 -1.8 -0.4; -1 0.1 -1.0 0.6]; 
[W,B1=solvelin(P,T); 
A=simulin(P,W,B ); 
SSE = Sumsqr ( 工 -A) 
W 


了 
end 


由 此 可 得 零 误 差 的 唯一 精确 解 为 : 
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W=[-2.4914 2.3068 3.1747; 
2.2049 -1.8247 -2.0716; 
2.0938 -1.2691 ”0.0395; 

-1.6963 ”0.9815 ”0.9963]; 

B = [-1.0512;1.2136;-0.4420;-0.3148] 

通常 可 以 直接 地 判断 出 一 个 线性 网 络 是 否 有 完美 的 零 误 差 的 解 : 如 果 每 个 神经 元 所 上 
有 的 自由 度 ( 即 权 值 与 阁 值 数 ) 等 于 或 大 于 限制 数 ( 即 输入 /和 输出 矢量 对 ) ， 那 么 线性 网 络 
则 可 以 零 误 差 的 解决 问题 。 不 过 这 一 事实 在 当 输 入 矢量 是 线性 相关 或 没有 了 阀 值 时 不 成 立 。 

为 了 演示 可 能 在 对 线性 相关 输入 矢量 的 网 络 训练 中 出 现 的 问题 ， 现 给 出 下 面 的 例子 。 

【 例 3.3 】 设 计 训练 一 个 线性 网 络 实现 下 列 从 输入 矢量 到 目标 矢量 的 变换 : 
P=[l1 2 3:; 
4 353 6]; 
T=f[0.3$1-1]; ， 

由 所 给 输入 /输出 矢量 对 可 知 ， 所 要 设计 的 线性 网 络 应 具有 效 值 ， 并 有 两 个 输入 神经 元 
和 一 个 输出 神经 元 。 对 于 这 个 具有 三 个 可 调 参数 的 线性 网 络 ， 本 应 得 到 完美 的 零 误差 的 精 
确 解 。 但 是 不 幸 的 是 所 给 出 的 输入 矢量 元 素 之 间 是 线性 相关 的 : 第 三 组 元 素 等 于 第 二 组 元 
素 的 两 倍 减 去 第 一 组 : Ps = 2p:- P; 。 此 时 ， 由 于 输入 矢量 的 奇异 性 ， 用 函数 solvelin.m 来 
设计 时 网 络 会 产生 问题 。 只 有 在 能 够 线性 地 解 出 问题 的 情况 下 ， 用 函数 solvelin.m 才 比 较 
准确 。 若 没有 准确 的 零 误差 ， solvelin.m 函数 会 给 出 最 小 误差 平方 和 意义 下 的 解 。 另 外 当 
出 现 奇 异 矩 阵 时 ， 使 用 solvelin.m 求解 权 值 可 能 会 出 现下 列 警告 : 

Warming : Matrix is singular to working precision. 

而 当 采 用 trainwh.m 函数 则 能 训练 出 达到 所 给 定 的 训练 次 数 时 ， 或 所 给 定 的 最 小 误差 
意义 下 的 权 值 时 的 最 小 误差 。 只 要 将 前 面 已 编写 的 wf2.m 程序 中 的 输入 与 目标 矢量 改变 一 
下 ， 并 给 出 (-1, 1) 之 间 的 随机 初始 值 ， 即 可 运行 看 到 本 例 的 结果 。 训练 400 次 过 程 中 的 误差 
记录 如 图 3.4 所 示 ， 其 最 终 误差 在 1.04 左右 ， 这 就 是 本 例题 下 的 最 小 误差 平方 和 ， 而 当 采 
用 完全 线性 函数 的 设计 solvelin.m 去 求解 网 络 权 值 时 ， 所 得 到 的 误差 是 4.25 。 采 用 W-H 算 
法 训练 出 的 误差 是 它 的 4 ， 由 此 可 见 其 算法 的 优越 性 . 
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图 3.4 训练 过 程 中 的 误差 记录 


【 例 3.4 〗】 现 在 假定 在 【 例 3.1 】 的 输入 /输出 矢量 中 增加 两 组 元 素 ， 使 其 变 为 ; 
P=[10 15 3.0 -12] 





7T=[05 1.1 3.0 -10] 

本 例题 的 目的 是 在 于 了 解 自 适 应 线性 网 络 的 线性 逼近 求解 的 能 力 . 

此 时 ， 所 要 解决 的 问题 相当 于 用 四 个 方程 解 w 和 两 个 未 知 数 。 因 为 方程 数 大 于 未 知 
数 ， 所 以 采用 代数 方程 是 无 解 的 。 但 仍 可 以 用 自 适应 线性 网 络 来 对 此 问题 求解 。 仍 然 是 单 
个 输入 节点 和 单个 输出 节点 ， 网 络 具 有 一 个 权 值 w 和 一 个 偏差 bp ， 通 过 选 定 期 望 误 差 平方 
和 的 值 和 最 大 循环 次 数 后 ， 可 以 让 网 络 进行 自行 训练 和 学 习 。 

图 3.5 给 出 了 输入 /输出 对 的 位 置 以 及 网 络 求解 的 结果 . 对 于 所 设置 的 err_goal = 0.001 ， 
在 循环 训练 了 50 次 后 所 得 的 误差 平方 和 仍然 为 : SSE = 0.289 。 这 个 值 即 是 本 题 所 能 达到 
的 最 小 误差 平方 和 的 值 ， 也 是 用 线性 网 络 所 能 达到 的 最 佳 结果 。 当 采用 线性 自 适应 线性 网 
络 求解 问题 所 得 到 的 误差 特别 大 时 ， 可 以 认为 此 问题 不 适宜 用 线性 网 络 来 解决 
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图 3.5 网 络 训练 结果 图 


由 上 面 的 例子 可 以 看 出 ， 自 适应 线性 网 络 仅 可 以 学 习 输 入 / 答 出 矢量 之 间 的 线性 关系 ， 
所 以 对 某 些 问 题 ， 自 适应 线性 网 络 是 不 能 得 到 满意 的 结果 的 。 然 而 ， 当 一 个 完美 的 结果 不 
存在 ,但 只 要 选择 足够 小 的 学 习 速 率 ， 自 适应 线性 网 络 将 总 是 可 以 使 其 误差 平方 和 为 最 小 ， 
网 络 对 其 给 定 的 结构 ， 总 可 得 到 一 个 尽 可 能 接近 目标 的 结果 。 这 是 因为 一 个 线性 网 络 的 误 
差 表面 是 抛物 线 型 的 ， 既 然 抛物 线 只 有 唯一 最 小 值 ， 基 于 梯度 下 降 法 的 W-H 规则 肯定 在 其 
最 小 值 处 产生 结果 . 

自 适应 线性 网 络 还 有 另 一 个 潜在 的 困难 ， 当 学 习 速 率 取得 较 大 时 ， 可 导致 训练 过 程 的 
不 稳定 . 

【 例 3.5 ]】 在 网 络 设计 训练 中 ， 学 习 速 率 的 选择 是 影响 收敛 速度 甚至 结果 的 一 个 很 重 
要 的 因素 .只 要 学 习 速 率 足 够 小 , 采用 W-H 规则 总 可 以 训练 出 一 个 使 其 输出 误差 为 最 小 的 
线性 网 络 。 这 里 展现 一 个 采用 大 于 所 建议 的 maxlinjr.m 学 习 速率 进行 训练 情况 的 例子 。 

输入 /目标 矢量 与 【 例 3.1 〗】 相 同 。 我 们 将 以 不 同 的 学 习 速率 训练 两 次 网 络 以 展现 两 种 
不 希望 的 学 习 速 率 带 来 的 影响 。 

为 了 能 够 清楚 地 观察 到 网 络 训练 过 程 中 权 值 的 修正 所 带 来 的 误差 的 变化 情况 ， 我 们 在 
程序 中 加 入 误差 等 高 线 图 ， 并 在 其 中 显示 每 一 次 权 值 修正 后 的 误差 值 位 置 ， 如 图 3.6 所 示 ， 
其 中 图 3.6(a) 为 由 权 值 w 和 偏差 上 所 决定 的 线性 网 络 误差 曲面 ， 可 以 看 到 它 是 一 个 抛物 线 
型 的 图 3.6(b) 为 图 3.6(a) 的 从 上 往 下 的 投影 图 ， 图 中 的 曲线 称 为 等 高 线 ， 线 上 的 点 具有 相 
同 的 误差 值 。 图 中 的 记号 “o ”代表 用 函数 solvelin.m 求 出 的 误差 最 小 值 ; 而 记号 “+” 为 
训练 前 的 初始 值 点 ， 








Error Surface Graph 


(a) 线性 网 络 的 误差 曲面 图 (b) 对 应 于 图 3.6(a) 的 误差 等 高 线 
3.6 ”线性 网 络 的 误差 图 形 


1 ) 对 于 第 一 个 尝试 ， 学 习 速率 I 取 : 
Ir = 1.7*kmaxlinlr (P); 
图 3.7 给 出 了 网 络 在 此 学 习 速 率 下 的 权 值 训练 及 其 误差 的 记录 。 
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{a) 权 矢量 修正 的 变化 过 程 Cb) 网 络 训练 过 程 中 的 误差 记录 
图 3.7 Ir=1.7*maxlinlr (P) 时 的 网 络 训练 过 程 


正如 所 看 到 的 ， 由 于 学 习 速率 太 大 ， 虽 然 能 够 使 权 值 得 到 较 大 的 修正 ， 但 由 于 过 量 而 
产生 了 振荡 .不 过 误差 在 其 权 值 振 荡 过 程 中 仍然 能 够 直线 下 降 , 所 以 在 经 过 14 次 循环 后 ( 注 
意 在 【 例 3.1 】 中 只 用 了 12 次 ) 达到 了 误差 的 最 小 值 。 如 果 学 习 速 率 再 加 大 ， 可 能 就 不 是 
这 人 么 幸运 了 。 

2 ) 第 二 个 尝试 是 选用 更 大 学 习 速 率 : 

rr = 2.5*maxlinlr (P); 

3.8 同样 给 出 了 网 络 的 权 值 训练 及 其 误差 的 记录 。 从 中 可 以 看 出 ， 由 于 其 学 习 速 率 

太 大 ， 网 络 的 权 值 修正 过 程 总 是 在 最 小 误差 方向 上 运动 ， 但 每 一 次 都 由 于 过 大 的 调整 使 其 
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偏离 期 望 目标 越 来 越 远 ， 其 误差 是 向 增加 而 不 是 减少 的 方向 移动 。 由 此 可 以 得 出 结论 : 应 


选取 较 小 的 学 习 速率 以 保证 网 络 收 代 ， 而 不 应 选 太 大 的 学 习 速 率 而 使 其 发 散 . 
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(a) 权 矢量 修正 的 变化 过 程 
图 3.8 ir = 2.S*maxlinir (P) 时 的 网 络 训练 过 程 


最 后 给 出 用 MATLAB 工具 箱 编写 本 例题 的 程序 : 


% wf4.m 

儿 

P=[1-1.2]; 
T=[0.51]; 
[R,Q ] = size (P); 

[S, Q ] =size (T); 
[W,B]=rands(S,R); 
% 画 误 差 曲面 图 


Wrange = -2:0.2:2; Brang = -2:0.2:2; 
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(Cb) 网 络 训练 过 程 中 的 误差 记录 


ES = errsurf (P, T, Wrange, Brange，purelin ); 


Imesh (ES, [60 30]); 

title (Error Surface Graph ”) 
pause 

旬 设计 网 络 权 值 并 画 出 投影 图 
[DW,DB ] = solvelin (P,T); 
contour ( ES, 23, Wrange, Brange ); 
axis (equal ) 

hold on 

plot(DW,DB，'oy ) 

Xlabel ('W ), ylabel (也 7) 

pause 


% 求 出 理想 网 络 权 值 
% 画 误差 的 等 高 线 


30 


Epoch 
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多 选择 学 习 速 率 
LR = menu (Use a learning rate of “，.… 
.7* Inaxlinlr，.… 
2.5y maxlinr 7); 

disp( ) 
多 训练 权 值 
disp_freq = 1 max_epoch = 30; er _goal = 0.001; 
让 LR == 

Ir = 1.7#Imaxlinlr (P, 1 ); 
else 

fr = 2.S*Imaxlinlr (了 , 1 ); 

end 
flops (0) 
pausetime = ]1; 匈 设置 哲 停 时 间 为 1 秒 钟 
A=purelin (Wy*yP,B ); 
也 = 了 -Ai SSE = Sumsqr (上 ); 
errors =[ SEE ]; 多 误差 记录 
for epoch = 1 : max_epoch 
这 SSE < err_goal, epoch = epoch - 1; break, end 
LW=W;LB=B， 
[dwW,dB ] = learmwh(P,E,Ir); 
W=W+dw;B=B+dB; 
A=purelin(W+P,B); 王 = 工 -Ai; SSE = sumsqr ( ); 狗 学 习 后 的 再 次 表达 式 
errors = [ errors SEE ]; 旬 误差 的 再 次 记录 
% 训练 过 程 中 的 显示 

让 rem ( epoch, disp_freq ) == 

temp = 旬 ops; 

plot (LW W],[LLB B],r- ); 

drawnow 

flops (temp); 

pause2(pausetimie) 

end 
end 
% 显 示 误 差 记录 
A=purelin ( WP, B ); 
ploterr (errors) 
end 





3.5 对 比 与 分 析 


到 目前 为 止 ， 我 们 已 经 学 习 了 感知 器 和 自 适应 线性 网 络 。 这 两 类 网 络 在 其 结构 和 学 习 
算法 上 都 没有 什么 太 大 的 差别 ， 甚 至 是 大 同 小 异 。 我们 前 面 在 人 工 神 经 网 络 的 发 展 历 史 中 
已 经 介绍 过 ， 这 两 种 模型 实际 上 是 最 早 的 模型 ， 且 自 适应 线性 网 络 是 在 感知 器 的 研究 基础 
上 建立 发 展 起 来 的 。 不 过 就 是 从 它们 细小 的 区 别 上 ， 我 们 也 能 够 看 到 它们 之 间 功 能 的 不 同 
点 ， 而 这 些 不 同 点 ， 在 其 它 各 种 神经 网 络 中 表现 得 更 加 突出 。 所 以 在 此 想 再 次 强调 一 下 学 
习 人 工 神 经 网 络 的 重点 在 于 掌握 不 同 的 概念 上 ， 在 于 掌握 不 同 网 络 名 称 的 不 同 特点 上 。 这 
些 特点 主要 表现 在 下 面 三 点 上 : 

( 工 ) 网 络 模型 结构 上 

一 种 网 络 有 一 种 结构 .我们 已 学 过 的 感知 器 和 自 适应 线性 网 络 ， 几 乎 具有 相同 的 结构 ， 
但 其 他 网 络 如 霍 普 菲尔德 网 络 就 完全 是 另外 一 种 结构 。 可 以 说 所 有 的 不 同 的 网 络 都 是 为 了 
完成 某 一 需要 而 设计 成 特有 的 网 络 模型 结构 。 我 们 必须 了 解 各 自 独 特 的 结构 以 及 所 达到 的 
不 同 作 用 。 只 有 这 样 ， 我 们 才能 够 设计 出 符合 特殊 需要 的 其 他 网 络 结构 来 。 

就 感知 器 和 自 适 应 线性 网 络 而 言 ， 结 构 上 的 主要 区 别 在 于 激活 函数 : 一 个 是 二 值 型 的 ， 
一 个 线性 的 。 仅 此 一 点 ， 就 使 得 感知 器 仅 能 做 简单 的 分 类 工作 ， 而 自 适 应 线性 网 络 除了 有 
分 类 功能 外 ， 还 可 以 进行 线性 逼近 。 当 把 偏差 与 权 值 考虑 成 一 体 时 ， 自 适应 线性 网 络 的 输 
全 情 作 寿 同 的 头条 本 区 磺 作 汪 必 全 部 尝 上 是 满 各 站 证 才刚 本 以 导语 4 芝 
= 二 ， 从 自动 控制 理论 的 角度 来 说 ， 丈 就 是 系统 的 传递 函数 ， 只 不 过 风 不 是 计算 出 来 


的 ， 且 自 适应 线性 网 络 中 的 克 只 能 表现 出 输入 与 输出 之 间 的 线性 关系 。 
当 输 入 与 输出 之 间 是 非 线性 关系 时 ， 通 过 对 网 络 的 训练 ， 可 以 得 出 线性 逼近 关系 ， 即 线性 
化 的 传递 郴 数 。 这 个 思想 可 以 运用 在 对 被 控 系 统 的 建 模 上 ， 即 系统 辨识 上 。 当然， 若 把 此 
思想 用 在 后 面 将 要 学 习 到 的 BP 网 络 中 ， 则 意味 着 可 以 对 任意 非 线性 被 控 系 统 建立 精确 的 
系统 模型 。 这 无 论 用 自动 控制 的 经 典 理论 ， 还 是 用 现代 控制 理论 ， 都 是 无 法 做 到 的 ， 因 为 
在 那里 ， 只 能 对 线性 的 或 线性 化 的 系统 建立 传递 函数 。 而 运用 人 工 神经 网 络 ， 采 用 最 简单 
的 自 适 应 线性 网 络 即 可 做 到 。 

(2) 学 习 算 法 

学 习 算法 是 为 了 完成 不 同 的 任务 、 达 到 不 同 的 目的 所 建立 的 ， 所 以 不 同 的 模型 ， 有 不 
同 的 算法 。 感 知 器 的 算法 是 最 早 提出 的 可 收敛 的 算法 ， 它 的 自 适 应 思想 被 威 德 罗 和 和 霍 夫 发 
展 成 使 其 误差 最 小 的 梯度 下 降 法 。 最 后 又 在 BP 算法 中 得 到 进一步 的 推广 ， 它 们 属于 同一 
类 算法 。 除 此 以 外 ， 在 其 它 模型 中 ， 则 采用 各 种 完全 不 同 的 算法 。 后面， 我 们 还 将 学 习 到 
的 算法 有 : 海 布 学 习 算 法 、 内 星 法 、 外 星 法 和 科 荷 伦 法 等 

(3 ) 适用 性 与 局 限 性 

每 个 网 络 模型 以 其 独特 的 结构 和 学 习 算 法 ， 决 定 了 它 所 能 够 解决 的 问题 ， 这 就 给 出 了 
它 的 适用 性 ， 同 时 也 指出 了 它 的 局 限 性 。 比 如 ， 感 知 器 仅 能 够 进行 简单 的 分 类 。 从 前 面 的 
例题 中 已 经 看 出 ， 感 知 器 可 以 将 输入 分 成 两 类 或 四 类 等 。 它 的 局 限 性 是 仅 能 对 线性 可 分 的 
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输入 进行 分 类 。 遗 憾 的 是 ， 娜 些 输入 是 线性 可 分 的 ， 在 划分 前 我 们 并 没有 办 法 得 知 ， 只 有 
进行 训练 后 才能 知道 是 否 线性 可 分 。 不 过 理论 已 经 证 明 ， 对 于 线性 可 分 的 输 和 矢量， 感知 
器 在 有 限 的 时 间 里 一 定 可 以 达到 结果 . 

自 适 应 线性 网 络 除了 像 感知 器 一 样 可 以 进行 线性 分 类 外 ， 又 多 了 线性 逼近 ， 这 仅 是 由 
于 其 激活 函数 可 以 连续 取 值 而 不 同 于 感知 器 的 仅 能 取 0 或 1 的 缘故 。 后 面 将 要 学 习 到 的 BP 
网 络 又 以 不 同 的 网 络 结构 以 及 多 层 学 习 算法 ， 而 能 够 进行 诸如 非 线性 函数 逼近 与 压缩 等 其 
它 模型 所 没有 的 功能 ， 但 它 也 有 自身 的 缺点 与 局 限 性 ， 如 : 需要 的 训练 时 间 较 长 ， 易 陷 人 
局 部 最 小 值 等 。 再 如 ， 夫 普 菲尔德 网 络 以 完全 另 一 种 网 络 结构 和 学 习 算 法 能 够 达到 自己 收 
敛 到 自己 的 功能 ， 但 实际 上 也 存在 着 很 难 找到 这 种 收敛 的 情况 。 

总 而 言 之 ， 我 们 应 从 以 上 三 个 方面 去 学 习 人 工 神经 网 络 。 只 有 这 样 ， 当 我 们 自己 遇 到 
一 个 实际 问题 时 ， 才 能 够 正确 选择 进而 达到 设计 出 有 效 的 神经 网 络 来 。 


3.6 “本章 小 结 


1 ) 自 适 应 线性 网 络 仅 可 以 学 习 输 入 /输出 矢量 之 间 的 线性 关系 ， 可 用 于 模式 联想 及 函 
数 的 线性 逼近 . 网 络 结构 的 设计 完全 由 所 要 解决 的 问题 所 限制 ， 网 络 的 输入 数目 和 输出 层 
中 神经 元 数目 ， 由 问题 所 限制 ; 

2 ) 多 层 线性 网 络 不 产生 更 强大 的 功能 ， 从 这 个 观点 上 看 ， 单 层 线性 网 络 不 比 多 层 线 
性 网 络 有 局 限 性 ; 

3 ) 输入 和 输出 之 间 的 非 线 性 关系 不 能 用 一 个 线性 网 络 精确 地 设计 出 ， 但 线性 网 络 可 
以 产生 一 个 具有 误差 平方 和 最 小 的 线性 逼近 . 


习 是 
〖 3.1 1 试用 MATLAB 编写 对 【 例 3.4 】 进 行 网 络 设计 的 程序 ,使 期 望 误差 和 err_goal 
= 0.001 ， 并 观察 训练 次 数 达 到 50 次 后 的 网 络 误差 结果 ， 判 断 是 否 适 用 于 用 自 适应 线性 网 
络 来 解决 此 问题 . 
〖 3.2 〗 设计 一 个 具有 单元 输入 和 单元 输出 的 线性 网 络 ， 注 意 观察 其 解 的 特性 : 
尼 =1, 了 = 0.5 





第 四 章 ” 反 回 传 播 网 络 


反 疝 传播 网 络 ( Back-Propagation Network , 简称 BP 网 络 ) 是 将 WwW-H 学 习 规 则 一 般 化 ， 
对 非 线性 可 微分 函数 进行 权 值 训练 的 多 层 网 络 。 

BP 网 络 主要 用 于 : 

1 ) 函数 逼近 : 用 输入 矢量 和 相应 的 输出 矢量 训练 一 个 网 络 逼 近 一 个 函数 ; 

2 ) 模式 识别 : 用 一 个 特定 的 输出 矢量 将 它 与 输入 矢量 联系 起 来 ; 

3 ) 分 类 : 把 输入 矢量 以 所 定义 的 合适 方式 进行 分 类 ; 

4 ) 数据 压缩 : 减少 输出 矢量 维 数 以 便于 传输 或 存储 , 

在 人 工 神经 网 络 的 实际 应 用 中 ， 80%~90% 的 人 工 神经 网 络 模型 是 采用 BP 网 络 或 它 的 
变化 形式 ， 它 也 是 前 向 网 络 的 核心 部 分 ， 体 现 了 人 工 神经 网 络 最 精华 的 部 分 。 在 人 们 掌握 
反 向 传播 网 络 的 设计 之 前 ， 感 知 器 和 自 适 应 线性 元 件 都 只 能 适用 于 对 单 层 网 络 模型 的 训 
练 ， 只 是 后 来 才 得 到 了 进一步 拓展 。 


4.1 BP 网 络 模型 与 结构 


一 个 具有 7 个 输入 和 一 个 隐 含 层 的 神经 网 络 模型 结构 如 图 4.1 所 示 。 





了 = 了 12 .7. 
图 4.1 具有 一 个 隐 含 层 的 神经 网 络 模型 结构 图 


感知 器 和 自 适 应 线性 元 件 的 主要 差别 在 激活 函数 上 : 前 者 是 二 值 型 的 , 后 考 是 线性 的 ， 
BP 网 络 具有 一 层 或 多 层 隐 含 层 ， 除 了 在 多 层 网 络 上 与 前 面 已 介绍 过 的 模型 有 不 同 外 ， 其 主 
要 差别 也 表现 在 激活 函数 上 。 BP 网 络 的 激活 函数 必须 是 处 处 可 微 的 ， 所 以 它 就 不 能 采用 
二 值 型 的 闪 值 函数 {0, 1} 或 符号 函数 {-1, 1}， BP 网 络 经 常 使 用 的 是 S 型 的 对 数 或 正切 激活 
函数 和 线性 函数 。 

图 4.2 所 示 的 是 S 型 激活 函数 的 图 形 .。 可 以 看 到 及 : ) 是 一 个 连续 可 微 的 函数 ， 其 一 阶 
导数 存在 。 对 于 多 层 网 络 ， 这 种 激活 本 数 所 划分 的 区 域 不 再 是 线性 划分 ， 而 是 由 一 个 非 线 
性 的 超 平面 组 成 的 区 域 。 它 是 比较 柔和 、 光 滑 的 任意 界面 ， 因 而 它 的 分 类 比 线性 划分 精确 、 
合理 ， 这 种 网 络 的 容错 性 较 好 。 另 外 一 个 重要 的 特点 是 由 于 激活 函数 是 连续 可 微 的 ， 它 可 
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以 严格 利用 梯度 法 进行 推算 ， 它 的 权 值 修正 的 解析 式 十 分 明确 ， 其 算法 被 称 为 误差 反 向 传 
播 法 ， 也 简称 BP 算法 ， 这 种 网 络 也 称 为 BP 网 络 . 





图 42 BP 网络 S 型 激活 函数 


因为 S 型 郴 数 具有 非 线性 放大 系数 功能 ， 它 可 以 把 输入 从 负 无 穷 大 到 正 无 穷 大 的 信 
号 ， 变 换 成 -1! 到 1 之 间 输 出 ， 对 较 大 的 输入 信 号， 放大 系数 较 小 ;而 对 较 小 的 输入 信和 号 ， 
放大 系数 则 较 大 , 所 以 采用 $ 型 激活 函数 可 以 去 处 理 和 台 近 非 线性 的 输入 /输出 关系 . 不 过 ， 
如 果 在 输出 层 采 用 $ 型 本 数 ， 输 出 则 被 限制 到 一 个 很 小 的 范围 了 ， 若 采用 线性 激活 函数 ， 
则 可 使 网 络 输出 任何 值 。 所 以 只 有 当 希 望 对 网 络 的 输出 进行 限制 ， 如 限制 在 0 和 ! 之 间 ， 
那么 在 输出 层 应 当 包含 S 型 激活 函数 ， 在 一 般 情 况 下 ， 均 是 在 隐 含 层 采 用 $ 型 激活 函数 ， 
而 输出 层 采 用 线性 激活 天 数 。 


4.2 BP 学 习 规则 


BP 网 络 的 产生 归功 于 BP 算法 的 获得 。 BP 算法 属于 8 算法 ， 是 一 种 监督 式 的 学 习 算 
法 。 其 主要 思想 为 : 对 于 4 个 输入 学 习 样本 :，P, 忆 , .…, P?, 已 知 与 其 对 应 的 输出 样本 为 : 
7, 71, .19 。 学 习 的 目的 是 用 网 络 的 实际 输出 47, 42, …, 44 与 目标 矢量 7, 72, .., 79 之 间 的 
误差 来 修改 其 权 值 ， 使 4 ，(1= 1 2,…,d ) 与 期 望 的 于 尽 可 能 地 接近 ; 即 : 使 网 络 输出 层 
的 误差 平方 和 达到 最 小 。 它 是 通过 连续 不 断 地 在 相对 
于 误差 函数 斜率 下 降 的 方向 上 计算 网 络 权 值 和 偏差 的 
变化 而 逐渐 逼近 目标 的 。 每 一 次 权 值 和 偏差 的 变化 都 
与 网 络 误差 的 影响 成 正比 ， 并 以 反 向 传播 的 方式 传递 
到 每 一 层 的 。 

BP 算法 是 由 两 部 分 组 成 : 信息 的 正 向 传递 与 误差 
4 1 2 sw2， 1) 7 1 的 反 向 传播 。 在 正 向 传播 过 程 中 ， 输 入 信息 从 输入 经 

隐 含 层 逐 层 计算 传 向 输出 层 ， 每 一 层 神经 元 的 状态 只 
了 = 了 影响 下 一 层 神经 元 的 状态 。 如 果 在 输出 层 没有 得 到 期 
图 43 具有 一个 隐 含 层 的 简化 网 络 图 ” 望 的 输出 ， 则 计算 输出 层 的 误差 变化 值 ， 然 后 转向 反 








向 传播 ， 通 过 网 络 将 误差 信号 沿 原来 的 连接 通路 反 传 回来 修改 各 层 神经 元 的 权 值 直至 达到 
期 望 目标 . 
为 了 明确 起 见 ， 现 以 图 4.1 所 示 两 层 网 络 为 例 进 行 BP 算法 推导 ， 其 简化 图 如 图 4.3 所 - 


不 。 
设 输入 为 已， 输入 神经 元 有 个 ， 隐 含 层 内 有 34 个 神经 元 ， 激 活 函 数 为 F7 ， 输 出 层 
内 有 82 个 神经 元 ， 对 应 的 激活 函数 为 F2 ， 输 出 为 4 ， 目 标 矢量 为 了 。 


4.2.1 信息 的 正 向 传递 


1 ) 隐 含 层 中 第 ;个 神经 元 的 输出 为 : 
ai = JI(2 YY 才 P+DL) = 72 (4.1) 
j=1 


2 ) 输出 层 第 上 个 神经 元 的 输出 为 : 
a2k = 12 位 w2ual +b21) ,大 = 1 2 32 (4.2) 
3 ) 定义 误 关 画 数 为 : 
BE(W,B)= - a26)7 (4.3) 


4.2.2 利用 梯度 下 降 法 求 权 值 变化 及 误差 的 反 向 传播 


(1) 输出 层 的 权 值 变化 
对 从 第 ;个 输入 到 第 上 个 输出 的 权 值 有 : 

9 9 90a2/ 
9w256 2 9w2 扣 (4.4) 
=mir -a2k) jF2 al =T un ali 











Amw21 = -人 


其 中 : 
6 =( 丰 一 02k)=ek 甩 / (4.5) 
EC 二 大 一 CO (4.0) 
同 理 可 得 : 
OF DOFE Oa2k 
21 三 - 二 - 一 一 
CR (4.7) 








=Tm(i -CQ2t) .FF2 = 人 0 
(2) 隐 含 层 权 值 变化 
对 从 第 / 个 输入 到 第 ;个 输出 的 权 值 ， 有 : 














Amwly = -m 9oF ”95 .9a26 9ali 
， 9w7 aa aa 0w17 
S (4.8) 
=T (kt-a26) 12 w256 PP1= 人 837 
人 1 





其 中 : 


32 
87 =ei 让， 6 = 2 8unw25 (4.9) 
天 =1 
同 理 可 得 : 


在 MATLAB 工具 箱 中 ,上述 公式 的 计算 均 已 编 成 函 数 的 形式 ,通过 简单 的 书写 调用 即 
可 方便 地 获得 结果 。 具 体 有 : 

1 ) 对 于 (4.1) 式 所 表示 的 隐 含 层 输出 ， 若 采用 对 数 S 型 激活 函数 ， 则 用 函数 logsig.m ; 
若 采用 双 曲 正切 S 型 激活 函数 ， 则 用 郴 数 tansig.m ; 

2 ) 对 于 (4.2) 式 所 表示 的 输出 层 输出 ， 若 采用 线性 激活 函数 有 purelin ,m 与 之 对 应 ; 

3 ) 对 于 (4.3) 式 所 表示 的 误差 画 数 ， 可 用 函数 sumsqr.m 求 之 ; 

4 ) 有 learnbp.m 函数 专门 求 (4.4)、(4.7)、(4.8) 和 (4.10) 式 所 表示 的 输出 层 以 及 隐 含 层 
中 权 值 与 偏差 的 变化 量 ; 

5 ) 由 (4.53) 和 (4.9) 式 所 表示 的 误差 的 变化 有 函数 deltalin,m ， deltatan.m 和 deitalog.m 
来 解决 。 它 们 分 别 用 于 线性 层 、 双 曲 正切 层 和 对 数 层 。 


4.2.3 ”误差 反 向 传播 的 流程 图 与 图 形 解释 


误差 反 向 传播 过 程 实际 上 是 通过 计算 输出 层 的 误差 eg ， 然 后 将 其 与 输出 层 激 活 函数 的 
一 阶 导数 户 ′ 相 乘 来 求 得 5 已 。 由 于 隐 含 层 中 没有 直接 给 出 目标 矢量 ， 所 以 利用 输出 层 的 
32 
8 后进 行 误差 反 向 传递 来 求 出 隐 含 层 权 值 的 变化 量 Aw2i6 , 然后 计算 邱 = Z 人 w%2 丰 ,并 
同样 通过 将 si 与 该 层 激活 函数 的 一 阶 导数 及 ′ 相 乘 ， 而 求 得 8 六 ， 以 此 求 出 前 层 权 值 的 变 
化 量 Awli 。 如 果 前 面 还 有 隐 含 层 ， 沿 用 上 述 同样 方法 依 此 类 推 ， 一 直 将 输出 误差 ak 一 层 
一 层 的 反 推算 到 第 一 层 为 止 。 图 4.4 给 出 了 形象 的 解释 。 





天 = 172..82， TI= 172 81 


了 = 1712,7 
图 4.4 误差 反 向 传播 法 的 图 形 解释 





BP 算法 要 用 到 各 层 激活 函数 的 一 阶 导数 ， 所 以 要 求 其 激活 函数 处 处 可 徽 。 对 于 对 数 $ 


型 激活 函数 Fi) = -一 ， 其 导数 为 : 
1+e 


三 (m = 





= 天 
- 开 

1+e 2- 了 T) 

(+e 7")” (+e ”) 


] d- 1 








反 ) = ja - Fo] 


于 - 天 


1+e- 1+e 
对 于 线性 函数 的 导数 有 : 
j 太 (人 = 于” = 
所 以 对 于 具有 一 个 S 型 函数 的 隐 含 层 ， 输 出 层 为 线性 函数 的 网 络 ， 有 : 
忆 ′ =1， 用 ′ =a(l-ag) 


4.3 BP 网 络 的 训练 过 程 


为 了 训练 一 个 BP 网 络 ， 需 要 计算 网 络 加 权 输 入 矢量 以 及 网 络 输出 和 误差 矢量 ， 然 后 
求 得 误差 平方 和 。 当 所 训练 矢量 的 误差 平方 和 小 于 误差 目标 ， 训 练 则 停止 ， 否 则 在 输出 层 
计算 误差 变化 ， 且 采用 反 向 传播 学 习 规则 来 调整 权 值 ， 并 重复 此 过 程 。 当 网 络 完成 训练 后 ， 
对 网 络 输入 一 个 不 是 训练 集合 中 的 矢量 ， 网 络 将 以 泛 化 方式 给 出 输出 结果 ， 

在 动手 编写 网 络 的 程序 设计 之 前 ， 必 须 首 先 根据 具体 的 问题 给 出 的 输入 矢量 己 与 目标 
矢量 7 ， 并 选 定 所 要 设计 的 神经 网 络 的 结构 ， 其 中 包括 以 下 内 容 : 

@ 网 络 的 层 数 ; @ 每 层 的 神经 元 数 ; @ 每 层 的 激活 函数 。 

由 于 BP 网 络 的 层 数 较 多 且 每 层 神 经 元 也 较 多 ， 加 上 输入 矢量 的 组 数 庞大 ， 往 往 使 得 
采用 一 般 的 程序 设计 出 现 循环 套 循环 的 复杂 崔 套 程序 ， 从 而 使 得 程序 编 得 既 费 时 ， 又 不 易 
调 通 ， 浪 费 了 大 量 的 时 间 在 编程 中 而 无 暇 顾及 如 何 设计 出 具有 更 好 性 能 的 网 络 来 。 在 这 点 
上 MATLAB 工具 箱 充 分 展示 出 其 神 到 之 处 . 它 的 全 部 运算 均 采用 矩阵 形式 , 使 其 训练 既 简 
单 ， 又 明了 快速 。 为 了 能 够 较 好 地 掌握 PB 网 络 的 训练 过 程 ， 下 面 我 们 仍 用 两 层 网 络 为 例 
来 令 述 BP 网 络 的 训练 步骤 。 

1 ) 用 小 的 随机 数 对 每 一 层 的 权 值 灰 和 偏差 B 初始 化 ， 以 保证 网 络 不 被 大 的 加 权 输 入 
饱和 ; 并 进行 以 下 参数 的 设 定 或 初始 化 : 

a) 期 望 误差 最 小 值 err_goal ; 

b) 最 大 循环 次 数 max_epoch ; 

c) 修 正 权 值 的 学 习 速 率 f ， 一 般 情 况 下 ir= 0.01~0.7 ; 

介 从 1 开始 的 循环 训练 : for epoch = 1 : max_epoch ; 

2 ) 计算 网 络 各 层 输 出 矢量 Al 和 A2 以 及 网 络 误差 E: 


Al=tansig ( W1*P, Bl); 





A2=purelin ( W2*Al, B2); 
卫 = 了 -Ai; 


3 ) 计算 各 层 反 传 的 误差 变化 D2 和 D1 并 计算 各 层 权 值 的 修正 值 以 及 新 权 值 : 


D2 = deltalin (A2, 了 ); 

Di = deltatan ( Al, D2, W2 ); 
[dWl, dB1 ] =leambp (P,Dl,Ir); 
[dW2, dB2 ] = learnbp (Al, D2,1r ); 
WII=Wli+dwlBl=Bl+dB1; 
W2=W2+dwW2;B2= 了 B2+dB2; 


4 ) 再 次 计算 权 值 修正 后 误差 平方 和 : 
SSE = sumsqr(T - purelin(W2*tansig(W1*P,BI),B2)); 


5 ) 检查 SSE 是 否 小 于 err_goal, 若 是 ， 训 练 结 束 ; 否则 继续 。 

以 上 就 是 BP 网 络 在 MATLAB 中 的 训练 过 程 。 可 以 看 出 其 程序 是 相当 简单 明了 的 。 即 
使 如 此 ， 以 上 所 有 的 学 习 规 则 与 训练 的 全 过 程 ， 仍 然 可 以 用 函数 trainbp.m 来 完成 。 它 的 
使 用 同样 只 需要 定义 有 关 参 数 : 显示 间隔 次 数 ， 最 大 循环 次 数 ， 目 标 误差 ， 以 及 学 习 速 率 ， 
而 调用 后 返回 训练 后 权 值 ， 循 环 总 数 和 最 终 误差: 


TP=[disp_fqre max_epoch err_goal Ir]; 
[ W, B, epochs, errors ] = trainbp ( W, B, 下 ', P,T, TP ); 


函数 右 端 的 下 为 网 络 的 激活 函数 名 称 ， 
当 网 络 为 两 层 时 ， 可 从 第 一 层 开始 ， 顺 序 写 出 每 一 层 的 权 值 初始 值 ， 激 活 函 数 名 ， 最 
后 加 上 输入 、 目 标 输出 以 及 TP ， 即 : 


[W1B1,W2,B2,W3,B3,epochs,errors] = trainbp(W1,Bl, 1,W2,B2, 2 ,W3,B3, 下 3 P,T,TP); 


神经 网 络 工具 箱 中 提供 了 两 层 和 三 层 的 BP 训练 程序 ， 其 函数 名 是 相同 的 ， 都 是 
trainbp.m ， 用 户 可 以 根据 层 数 来 选取 不 同 的 参数 。 

【 例 4.1 〗 用 于 画 数 逼近 的 BP 网 络 的 设计 。 

一 个 神经 网 络 最 强大 的 用 处 之 一 是 在 函数 逼近 上 。 它 可 以 用 在 诸如 被 控 对 象 的 模型 辨 
识 中 ， 即 将 过 程 看 成 一 个 黑箱 子 ， 通 过 测量 其 输入 /输出 特性 ， 然 后 利用 所 得 实际 过 程 的 输 
人 /和 输出 数据 训练 一 个 神经 网 络 ， 使 其 输出 对 输入 的 响应 特性 具有 与 被 辨识 过 程 相同 的 外 部 
特性 ， 

下 面 给 出 一 个 典型 的 用 来 进行 函数 逼 近 的 两 层 结构 的 神经 网 络 ， 它 具有 一 个 双 曲 正切 





型 的 激活 函数 隐 含 层 ， 其 输出 层 采 用 线性 函数 。 
这 里 有 21 组 单 输入 矢量 和 相对 应 的 目标 矢量 , 试 设计 神经 网 络 来 实现 这 对 数组 的 函数 
关系 。 


忆 =-1 :0.1:1; 

7=[-0.96 ”0.577 -0.0729 0.377 0.641 0.66 ”0.461 0.1336 .… 
-0.201 -0.434 -0.5 -0.393 -0.1647 0.0988 0.3072 .… 
0.396 ”0.3449 0.1816 -0.0312 -0.2183 -0.3201 ]; 


为 此 ， 我 们 选择 隐 含 层 神经 元 为 5 。 较 复杂 的 函数 需要 较 多 的 隐 含 层 神经 元 ， 这 可 以 

图 4.5 给 出 了 目标 矢量 相对 于 输入 矢量 的 图 形 。 一 般 在 测试 中 常 取 多 于 训练 用 的 输入 
矢量 来 对 所 设计 网 络 的 响应 特性 进行 测试 .在 函数 逼近 的 过 程 中 ， 画 出 网 络 输出 相对 于 给 
人 矢量 的 图 形 ， 可 以 观察 到 网 络 在 训练 过 程 中 的 变化 过 程 。 为 了 达到 这 一 目的 ， 我 们 定义 
一 个 密度 较 大 的 第 二 个 输入 矢量 : 


P2 = -1 : 0.025 :1; 
首先 对 网 络 进 行 初始 化 : 
[R, Q ] = size (P); [S2, Q]= size (T); S1 = 3; 


[W1l,B1]=rands(S1,R ); 
[ W2,B2 ]=rands (S2, S1l ); 


通过 测试 ， 用 输入 矢量 P2 来 计算 网 络 的 输出 :; 
A2 = purelin ( W2#ktansig ( W1+P2, B1 ), B2 ); 

可 以 画 出 结果 来 观察 初始 网 络 是 如 何 接近 所 期 望 训练 的 输入 /输出 关系 ， 如 图 4.6 所 
示 . 其 中 ， 初 始 网 络 的 输出 值 用 实 线 给 出 。 





图 4.5 ”以 目标 矢量 相对 于 输入 矢量 的 图 形 图 4.6 初始 网 络 的 输出 曲线 
网 络 训练 前 的 误差 平方 和 为 11.9115 ， 其 初始 值 为 : 


所 》 


二 .1 二 


0 





W10=[0.7771 0.5336 -0.3874 -0.2980 0.0265]; 
B10 = [0.1822;0.6920;-0.1758;0.6830;-0.4614]; 

W20 = [-0.1692 0.0746 -0.0642 -0.4256 -0.6433]; 
B20 = [-0.6926]; 


下 面 定 义 训练 参数 并 进行 训练 : 


disp_fqre = 10; Iax_epoch = 8000; err_goal = 0.02; ”II = 0.01; 
TP=[disp_fqre max_epoch err_goal Ir]; 
trainbp ( W1,B1， tansig", W2 B2， purelin",P,T,TP ] 


由 此 可 以 返回 训练 后 的 权 值 、 训 练 次 数 和 偏差 。 

图 4.7 至 图 4.10 给 出 了 网 络 输出 值 随 训练 次 数 的 增加 而 变化 的 过 程 。 每 个 图 中 标 出 了 
循环 数目 以 及 当时 的 误差 平方 和 。 

4.11 给 出 了 6801 次 循环 训练 后 的 最 终 网 络 结果 ， 网 络 的 误差 平方 和 落 在 所 设 定 的 
0.02 以 内 (0.0199968)。 
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图 4.7 训练 1000 次 的 结果 图 4.8 训练 2000 次 的 结果 
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图 4.9 训练 3000 次 的 结果 图 4.10 训练 5000 次 的 结果 
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(Ga) 训练 结束 后 的 网 络 输出 结果 () 训练 结束 后 的 网 络 误差 记录 
图 4.11 训练 结束 后 的 网 络 输出 与 误差 结果 


因为 反 向 传播 法 采用 的 是 连续 可 微 函 数 ， 所 以 网 络 对 输入 /输出 的 逼近 是 平滑 的 。 另 
外 ， 昌 然 网 络 仅 在 输入 值 -1, -0.9, -0.8, …, 0.9, 1.0 处 进行 训练 ， 但 对 于 其 他 输入 值 的 出 现 ， 
例如 ， 对 训练 后 的 网 络 输入 已 = 0.33 的 值 ， 网 络 的 输出 端 可 得 其 对 应 输出 为 : 


》 Al =tansig(W1*0.33,B1); 
》 A2 = purelin(W2*Al1,B2) 
A2 = 

0.1659 


正如 所 希望 的 那样 ， 这 个 值 落 在 输入 矢 量 为 0.3 和 0.4 所 对 应 的 输出 矢量 之 间 。 网 络 的 
这 个 能 力 使 其 平滑 地 学 习 函 数 ， 使 网 络 能 够 合理 地 响应 被 训练 以 外 的 输入 。 这 性 质 称 为 泛 
化 性 能 。 要 注意 的 是 ， 泛 化 性 能 只 对 被 训练 的 输入 /输出 对 最 大 值 范围 内 的 数据 有 效 ， 即 网 
络 具有 内 插值 特性 ， 不 具有 外 插值 性 。 超 出 最 大 训练 值 的 输入 必 将 产生 大 的 输出 误差 


4.4 BP 网络 的 设计 


在 进行 BP 网 络 的 设计 时 ， 一 般 应 从 网 络 的 层 数 、 每 层 中 的 神经 元 个 数 和 激活 函数 、 
初始 值 以 及 学 习 速 率 等 几 个 方面 来 进行 考虑 。 下 面 讨论 一 下 各 自选 取 的 原则 . 


4.4.1 ”网 络 的 层 数 


理论 上 已 经 证 明 : 具有 偏差 和 至 少 一 个 $ 型 隐 含 层 加 上 一 个 线性 输出 层 的 网 络 ， 能 够 
逼近 任何 有 理 函 数 。 这 实际 上 已 经 给 了 我 们 一 个 基本 的 设计 BP 网 络 的 原则 。 增 加 层 数 主 
要 可 以 更 进一步 的 降低 误差 ， 提 高 精度 ， 但 同时 也 使 网 络 复杂 化 ， 从 而 增加 了 网 络 权 值 的 
训练 时 间 。 而 误差 精度 的 提高 实际 上 也 可 以 通过 增加 隐 含 层 中 的 神经 元 数目 来 获得 ， 其 训 
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练 效果 也 比 增加 层 数 更 容易 观察 和 调整 。 所 以 一 般 情 况 下 ， 应 优先 考虑 增加 隐 含 层 中 的 神 
经 元 数 . 

另外 还 有 一 个 问题 : 能 不 能 仅 用 具有 非 线性 激活 函数 的 单 层 网 络 来 解决 问题 呢 ? 结论 
是 : 没有 必要 或 效果 不 好 。 因 为 能 用 单 层 非 线 性 网 络 完美 解决 的 问题 ， 用 自 适应 线性 网 络 
一 定 也 能 解决 ， 而 且 自 适应 线性 网 络 的 运算 速度 还 更 快 。 而 对 于 只 能 用 非 线性 函数 解决 的 
问题 ， 单 层 精度 又 不 够 高 ， 也 只 有 增加 层 数 才能 达到 期 望 的 结果 。 

这 主要 还 是 因为 一 层 网 络 的 神经 元 数 被 所 要 解决 的 问题 本 身 限 制造 成 的 。 下 面 给 出 两 
个 例题 来 说 明 此 问题 。 

【 例 4.2 〗 考 虑 两 个 单元 输入 的 联想 问题 。 其 输入 和 输出 矢量 分 别 为 : 

P=[-3 2 ]，7=[04 0.8] 


解 : 

当 采 用 含有 一 个 对 数 S 型 单 层 网 络 求解 时 ， 可 求 得 解 为 : 
w= 0.3350 
有 = 0.5497 


此 时 所 达到 的 误差 平方 和 err_goal < 0.001 。 若 将 这 个 误 关 转 换 成 输出 误差 时 ， 其 绝对 
误差 约 为 0.02 。 

若 采 用 自 适应 线性 网 络 来 实现 此 联想 ， 得 解 为 : 

W=0.08 
六 = 0.64 

此 网 络 误差 为 : e=7T-7=0， 

我 们 还 可 以 从 点 拟 合 这 个 角度 来 看 这 个 问题 。 以 输入 已 和 输出 4 分 别 为 横 坐 标 和 纵 
坐标 ， 可 得 图 4.12 ， 其 中 ， 虚 线 为 采用 非 线 性 网 络 拟 合 的 结果 。 求 两 点 的 联想 问题 实质 
上 是 求 以 此 两 点 所 拟 合 的 直线 ， 所 以 当 采 用 自 适 应 线性 网 络 来 求解 此 问题 时 ， 可 以 得 到 
零 误 差 的 完美 解 。 而 当 采 用 S 型 函数 对 此 两 点 进行 拟 合 ， 因 为 点 数 太 少 ， 所 以 反而 产生 
一 定 的 误差 。 





图 4.12 ”两 种 不 同 网 络 的 解 


【 例 4.3 】 用 一 层 网 络 来 实现 下 面 的 输入 /输出 关系 : 
P=[-6 -61 -41 -4 4 41 6 61]， 
7T=[00 00 0.97 0.99 0.01 003 1 1) 


二 54 





解 : 
这 是 一 个 约束 大 于 变量 的 代数 问题 ， 这 是 因为 由 输入 /输出 对 可 得 : 
矢量 的 维 数 为 : Pr = Pixs ,Te =Tixs ， 所 以 约束 等 式 有 8 个 。 
而 权 值 的 维 数 为 ;: Wrm = 机 tx ， 加 上 一 个 偏差 值 p ， 一 共 只 有 两 个 变量 。 
当 采 用 单 层 对 数 非 线 性 网 络 求解 时 ， 求 得 的 一 个 解 为 : 
mw = 0.079 
六 = -0.1616 
此 时 具有 误差 平方 和 为 1.85 ， 总 共 进 行 了 380 次 循环 修正 。 
当 采 用 自 适当 线性 网 络 求解 本 题 时 ， 在 具有 相同 误差 平方 和 时 ， 只 用 了 40 次 循环 修 
正 ， 即 得 出 一 解 为 : 
W= 0.0204 
已 = 0.4537 
同样 可 以 采用 横 纵 坐 标 来 画 出 输入 和 目标 输出 矢量 ， 如 图 4.13 所 示 。 并 分 别 画 出 两 个 
网 络 对 输入 矢量 的 响应 。 图 中 ， 将 输入 /目标 矢量 对 用 “+” 号 表示 ， 因 为 两 个 网 络 具 有 相 
同 的 误差 ， 所 以 在 图 中 几乎 看 不 出 它们 之 间 的 差别 来 。 
网 络 的 输出 反映 的 是 在 该 网 络 下 所 达到 的 最 小 误差 平方 和 时 ， 对 输入 节点 的 响应 。 





图 4.13 网络 求解 结果 图 


很 明显 本 例题 的 误差 不 为 零 ， 而 且 非 线性 与 线性 网 络 的 响应 几乎 是 完全 相同 的 。 这 可 
以 使 我 们 得 出 结论 : 既 使 是 采用 非 线性 激活 函数 ， 在 采用 单 层 网 络 时 ， 并 没有 体现 出 特殊 
的 优越 性 ， 甚 至 还 不 如 线性 网 络 的 效果 。 从 图 4.13 中 ， 我 们 还 可 以 看 出 ， 网 络 的 输出 直线 
实际 上 起 到 的 是 一 种 分 类 功能 。 它 把 四 个 点 分 成 上 下 两 类 。 

通过 上 面 两 个 例题 可 以 看 出 ， 对 于 一 般 可 用 一 层 解决 的 问题 ， 应当 首 先 考 虑 用 感知 器 ， 
或 自 适应 线性 网 络 来 解决 ， 而 不 采用 非 线性 网 络 ， 因 为 单 层 不 能 发 挥 出 非 线性 激活 函数 的 
特长 。 

输入 神经 元 数 可 以 根据 需要 求解 的 问题 和 数据 所 表示 的 方式 来 确定 。 如 果 输 和 的 是 电 
压 波 形 ， 那 么 可 根据 电压 波形 的 采样 点 数 来 决定 输入 神经 元 的 个 数 ， 也 可 以 用 一 个 神经 元 ， 
使 输入 样本 为 采样 的 时 间 序 列 。 如 果 输 入 为 图 像 ， 那 么 则 输入 可 以 用 图 像 的 象 素 ， 也 可 以 
为 经 过 处 理 后 的 图 像 特 征 来 确定 其 神经 元 个 数 。 总 之 问题 确定 后 ， 输 入 与 输出 层 的 神经 元 
数 就 随 之 定 了 . 在 设计 中 应 当 注意 尽 可 能 地 减少 网 络 模型 的 规模 ， 以 便 减 少 网 络 的 训练 时 
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间 。 下 面 我 们 通过 同样 简单 的 单 层 非 线 性 网 络 所 形成 的 网 络 误差 曲面 ， 并 通过 与 线性 的 情 
况 的 对 比 ， 来 进一步 了 解 非 线性 网 络 的 特性 、 功 能 及 其 优 缺点 。 

【 例 4.4 】 非 线性 误差 曲面 特性 观察 . 

理解 和 掌握 反 向 传播 网 络 工作 的 最 好 方式 就 是 观察 它 是 如 何 工作 的 . 像 W-H 学 习 规则 
一 样 ， 反 向 传播 法 也 是 企图 通过 调整 每 一 个 正比 于 误差 的 变化 来 修正 权 值 而 使 误差 函数 最 
小 化 ， 也 是 属于 梯度 下 降 法 .一 个 简单 的 比喻 就 是 好 像 在 观察 一 个 没有 惯性 的 弹子 (代表 
网 络 ) 在 一 个 粗糙 不 平 的 面 上 滚动 .弹子 总 是 在 最 速 方向 上 滚动 直到 停留 在 一 个 谷 的 底部 . 
( 即 误差 的 极 小 值 ) 。 

为 了 能 够 观察 非 线 性 误差 曲面 的 形状 以 及 训练 时 误差 的 走向 ， 现 仍然 采用 单 层 非 线性 
网 络 来 求解 【 例 4.2 〗】， 首 先 观察 误差 的 立体 图 。 它 的 MATLAB 编程 如 下 : 


Wrange= -4:0.4 :4; % 限制 坐标 范围 
Brange = -4 :0.4 :4; 

ES = errsurf (P, T, Wrange, Breang, 'logsig' ); 多 计算 误差 曲面 
view([ 60 30 ] ); % 显示 误差 曲面 图 形 
xlabel ('W7)， % 写 x 坐 标 说 明 
ylabel (也 )， % 写 y 横 坐标 说 明 
zlabel ('Sum Squared Error )， % 写 z 坐 标 说明 

title ('Error Surface Graph )， % 写 图 标题 


误差 的 等 高 线 图 用 下 列 命令 绘 出 : 
contour ( ES, 23, Wrange, Brange); 
axis (equal )， 


两 图 分 别 如 图 4.14 和 图 4.15 所 示 ,， 其 中 图 4.14 中 的 z 坐标 为 误差 值 . 两 图 中 的 黑 点 对 
应 着 相同 的 点 。 对 照 两 图 可 以 分 别 看 出 不 同 的 网 络 权 值 所 对 应 的 误差 值 。 


Error Surface Graph 





Sum Squared Error 


图 4.14 误差 曲面 图 形 4.15 误差 的 等 高 线 图 
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(a) 训练 过 程 中 参数 变化 过 程 (b) 训练 过 程 中 误差 记录 
图 4.16 训练 过 程 中 参数 变化 过 程 和 误差 记录 


两 图 以 不 同 的 方式 画 出 了 误差 的 分 布 ，。 从 图 4.14 中 可 以 看 出 一 个 较 高 的 平原 以 及 一 个 
较 低 的 扁平 层 出 现 在 两 个 边缘 。 在 等 高 线 图 中 ， 平 原 面 覆 盖 了 左 半 边 的 大 部 分 ， 而 一 个 较 
大 的 “ 丘 ” 地 是 在 中 心 的 底部 ， 一 个 较 小 的 “ 丘 ” 在 顶部 。 最 小 误差 是 在 平面 和 丘 之 间 : 
两 角 之 间 的 交点 给 出 了 最 小 误差 的 网 络 权 值 . 

训练 一 个 网 络 的 工作 始 于 随机 初始 化 的 权 值 。 本 例 中 在 误差 等 高 线 中 用 符号 “+” 画 出 
了 随机 选取 的 误差 位 置 。 图 4.16(a) 给 出 训练 过 程 中 误差 从 初始 值 移动 到 最 终结 果 的 过 程 记 
录 ， 这 个 记录 是 由 变量 errors 在 整个 训练 过 程 中 保存 。 这 些 误差 可 以 用 下 面 的 命令 画 出 : 
ploterr (errors )， 如 图 4.16(b) 所 示 。 注意 权 值 变化 在 误差 等 高 线 图 中 的 走向 。 它 是 与 等 高 
线 呈 垂直 的 角度 穿越 等 高 线 向 最 小 值 逼 近 的 。 


4.4.2 隐 含 层 的 神经 元 数 


网 络 训练 精度 的 提高 ， 可 以 通过 采用 一 个 隐 含 层 ， 而 增加 其 神经 元 数 的 方法 来 获得 。 
这 在 结构 实现 上 ， 要 比 增 加 更 多 的 隐 含 层 要 简单 得 多 。 那 么 究竟 选取 多 少 个 隐 含 层 节点 才 
合适 ? 这 在 理论 上 并 没有 一 个 明确 的 规定 . 在 具体 设计 时 ， 比 较 实际 的 做 法 是 通过 对 不 同 
神经 元 数 进行 训练 对 比 ， 然 后 适当 地 加 上 一 点 余 量 。 

为 了 对 隐 含 层 神经 元 数 在 网 络 设计 时 所 起 的 作用 有 一 个 比较 深入 的 理解 ， 下 面 先 给 出 
一 个 有 代表 性 的 实例 ， 然 后 从 中 得 出 几 点 结论 。 

【 例 4.5 】 用 两 层 BP 网 络 实现 “ 异 或 ”功能 . 

这 是 一 个 很 能 说 明 问题 的 例子 。 我 们 已 经 知道 ， 单 层 感知 器 不 可 能 实现 “ 异 或 ”功能 ， 
即使 网 络 实现 如 下 的 输入 /输出 的 功能 : 


| 7=[0 1 1 0] 
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很 明显 ,希望 在 输入 平面 上 ， 用 一 条 直线 将 目标 矢量 的 四 个 点 分 成 两 部 分 是 不 可 能 的 ， 
但 两 条 直线 则 可 以 解决 的 问题 . 

当然 ， 三 条 直线 、 四 条 直线 均 能 解决 此 问题 。 另 外 我 们 知道 ， 对 于 一 个 二 元 输入 网 络 
来 说 ， 神 经 元 数 即 为 分 割 线 数 。 所 以 ， 采 用 23 和 4 等 数 作 为 隐 含 层 神经 元 均 能 解决 此 问 
题 。 由 此 ， 可 以 画 出 实现 “ 异 或 ”功能 的 四 种 可 能 的 BP 网 络 结构 图 


人) 由 
了 -> 己 区 光一 4 
(c) (d) 
图 4.17 sl 分 别 为 1,2,3 和 4 时 的 求解 “ 异 或 ”功能 的 网 络 结构 
图 4.17(a) 中 ， 输 出 节点 与 隐 含 层 节点 相同 ， 显 然 该 输出 层 是 多 余 的， 该 网 络 也 不 能 解 
决 问题 ， 因 此 需要 增加 隐 含 层 的 节点 数 。 
更 加 极端 的 情况 是 多 于 4 个 隐 含 层 的 节点 时 ， 会 有 什么 结果 ? 在 此 例 中 ， 隐 含 层 中 神 
经 元 数 为 多 少时 为 最 佳 ? 为 了 弄 清 这 些 问题 我 们 针对 sS1 = 2, 3, 4, 3, 6 以 及 为 20 、25 和 30 
时 对 网 络 进行 了 设计 .为 了 节省 训练 时 间 ， 选 择 误 差 目 标 为 err_goal = 0.02， 并 通过 对 网 络 
训练 时 所 需 的 循环 次 数 和 训练 时 间 的 情况 来 观察 网 络 求解 效果 . 各 网 络 的 训练 结果 如 表 4.1 
所 示 。 
4.18 给 出 了 表 4.1 所 对 应 的 训练 误差 的 记录 . 从 中 可 以 看 到 其 误差 曲线 下 降 的 过 程 。 
搬 开 初始 值 的 影响 ， 误 差 在 81 较 少 时 显得 比较 平 ， 且 下 降 速 度 也 慢 ， 而 随 着 1 的 增 大 ， 


下 降 速 度 增 快 .不 过 ,由 于 隐 含 层 节 点 数 的 增加 , 其 初始 误差 值 随 之 增加 , 这 一 点 从 图 4.18(b) 


中 可 以 清楚 地 看 出 . 
表 4.1 sl = 2,3,4, 5, 6, 20,25 和 30 时 的 网 络 训练 结果 
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“ 图 4.18 “ 蜡 或 ”网 络 训练 误差 的 记录 

我 们 评价 一 个 网 络 设计 的 好 坏 ， 首 先是 它 的 精度 ， 再 一 个 就 是 训练 时 间 。 时 间 包 含有 
两 层 : 一 是 循环 次 数 ， 二 是 每 一 次 循环 中 计算 所 花费 的 时 间 。 

从 表 4.1 和 图 4.18 中 可 以 看 出 下 面 几 种 情况 : 

1 ) 神经 元 太 少 ， 网 络 不 能 很 好 地 学 习 ， 需 要 训练 的 次 数 也 多 ， 训 练 精 度 也 不 高 ， 如 
取 5L =2 时， 虽然 能 够 解决 问题 ， 但 为 最 糟糕 的 情况 ， 因 为 很 难 达到 较 高 的 训练 精度 ; 

2 ) 一 般 而 言 ， 网 络 隐 含 层 神 经 元 的 个 数 *1 越 多 ， 功 能 越 大 ， 但 当 神 经 元 数 太 多 ， 一 
是 循环 次 数 ， 也 就 是 训练 时 间 随 之 增加 。 另 外 ， 还 会 产生 其 他 问题 。 实 际 上 ， 在 进行 函数 
逼近 时 ， 1 过 大 ， 可 能 导致 不 协调 的 拟 合 。 表 4.1 中 当 取 ?1 大 于 25 以 后 ， 网 络 解决 问题 
的 能 力 就 开始 出 现 问 题 ; 

3 ) 当 5L = 3,4, 5 时 ， 其 输出 精度 都 相仿 ， 而 *1 = 3 时 的 训练 次 数 最 多 。 sl 的 增加 能 
够 加 速 误差 的 下 降 ， 不 过 从 另 一 方面 来 看 ， 随 着 *! 的 增加 ， 在 每 一 次 循环 过 程 中 所 要 进行 
的 计算 量 也 随 着 增加 , 所 以 所 需要 的 训练 时 间 并 不 一 定 也 随 之 减少 , 这 一 点 从 9 =5 和 ?= 
6 的 情况 中 看 得 很 清楚 : 两 者 所 用 训练 时 间 相同 ， 而 后 者 比 前 者 所 用 训练 时 间 较 长 。 对 于 
本 题 ， 可 以 说 选 1 = 3, 4,5 ， 直 至 15 均 可 ， 当 然 以 9 = 5 和 6 时 为 最 佳 。 由 此 可 以 看 出 ， 
网 络 隐 含 层 节点 数 的 选择 是 有 一 个 较 广 的 范围 的 。 不 过 从 网 络 实现 的 角度 上 说 ， 倾 向 于 选 
择 较 少 的 节点 数 。 一 般 地 讲 ， 网 络 *1 的 选择 原则 是 : 在 能 够 解决 问题 的 前 握 下 ， 再 加 上 1 
到 2 个 神经 元 以 加 快 误 差 的 下 降 速 度 即 可 , 


4.4.3 ”初始 权 值 的 选取 


由 于 系统 是 非 线性 的 ， 初 始 值 对 于 学 习 是 否 达到 局 部 最 小 、 是 否 能 够 收敛 以 及 训练 时 
间 的 长 短 的 关系 很 大 。 如 果 初 始 权 值 太 大 ， 使 得 加 权 后 的 输入 和 壮 落 在 了 S 型 激活 函数 的 
饱和 区 , 从 而 导致 其 导数 广 人 @ 非 常 小 , 而 在 计算 权 值 修正 公式 中 , 因为 5< 万 四 , 当 廊 (天 ) 
0 时 ,， 则 有 65 0. 这 使 得 A wr ~ 0， 从 而 使 得 调节 过 程 几乎 停顿 下 来 。 所 以 ， 一 般 总 
是 希望 经 过 初始 加 权 后 的 每 个 神经 元 的 输出 值 都 接近 于 零 ， 这 样 可 以 保证 每 个 神经 元 的 权 
值 都 能 够 在 它们 的 $ 型 激活 函数 变化 最 大 之 处 进行 调节 。 所 以 ， 一 般 取 初 始 权 值 在 (-L1D) 之 
间 的 随机 数 。 另 外 ， 为 了 防止 上 述 现象 的 发 生 ， 威 得 罗 等 人 在 分 析 了 两 层 网 络 是 如 何 对 一 





个 函数 进行 训练 后 ， 提 出 一 种 选 定 初始 权 值 的 策略 : 选择 权 值 的 量 级 为 WMS1 ， 其 中 ?1 为 第 
一 层 神经 元 数目 。 利 用 他 们 的 方法 可 以 在 较 少 的 训练 次 数 下 得 到 满意 的 训练 结果 。 在 
MATLAB 工具 箱 中 可 采用 函数 nwlog.m 或 nwtan.m 来 初始 化 隐 含 层 权 值 WwW1 和 B1 . 其 方 
法 仅 需要 使 用 在 第 一 隐 含 层 的 初始 值 的 选取 上 ， 后 面 层 的 初始 值 仍 然 采 用 随机 取 数 ， 
【 例 4.6 】 较 好 的 初始 值 时 的 训练 效果 的 观察 。 

以 前 面 的 【 例 4.1 】 为 例 ， 当 改 用 下 列 初始 值 : 
[ W1B1 ] = nwtan(S1,R); 
[ W2,B2 ] = rands(S2,S1)*0.5; 

在 这 个 初始 值 函数 下 ， 获 得 的 一 组 初始 值 为 : 
W1=[3.53.53.5 3.53.5 3.5 ]; 
B1 =f -2.8562; 1.0774; -0.5880; 1.4083; 2.8722 ]; 
W2 = [0.2622 -0.2375 -0.4525 0.2361 -0.1718 ]; 
B2 = [0.1326 ]; 

重新 训练 网 络 后 ， 相 对 于 原先 随机 初始 值 时 的 6 801 次 的 训练 ， 仅 用 了 4S4 次 ， 就 达 
到 了 同样 的 目标 误差 0.02 (0.0198409).。 这 比 标准 的 反 向 传播 法 快 了 10 倍 以 上 , 明显 地 节省 
了 大 量 的 训练 时 间 。 图 4.19 和 图 4.20 给 出 了 初始 权 值 时 的 输入 /输出 图 以 及 网 络 训练 结束 
后 的 误差 记录 。 网 络 训练 结束 后 的 权 值 为 : 
W1=[3.6149 3.8072 3.6115 3.3737 3.7562]; 
B1 = [ -2.7713; 1.1006; -0.7192; 1.5936; 2.9815]; 
W2 = [-0.5747 -1.1234 0.8447 -0.0467 1.3260]; 


B2 = -0.9110 
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图 4.19 ”网络 训练 的 初始 权 值 图 4.20 ”网络 训 练 的 误差 记录 
4.4.4 ”学习 速率 


学 习 速率 决定 每 一 次 循环 训练 中 所 产生 的 权 值 变化 量 。 大 的 学 习 速率 可 能 导致 系统 的 
不 稳定 ; 但 小 的 学 习 速率 导致 较 长 的 训练 时 间 ， 可 能 收敛 很 慢 ， 不 过 能 保证 网 络 的 误差 什 
不 跳出 误差 表面 的 低谷 而 最 终 趋 于 最 小 误差 值 。 所 以 在 一 般 情 况 下 ， 倾 向 于 选取 较 小 的 学 





习 速 率 以 保证 系统 的 稳定 性 。 学 习 速 率 的 选取 范围 在 0.01 ~ 0.8 之 间 。 

和 初始 权 值 的 选取 过 程 一 样 ， 在 一 个 神经 网 络 的 设计 过 程 中 。 网 络 要 经 过 几 个 不 同 的 
学 习 速率 的 训练 ， 通 过 观察 每 一 次 训练 后 的 误差 平方 和 乙 “的 下 降 速 率 来 判断 所 选 定 的 学 
习 速 率 是 否 合适 。 如 果 忆 下 降 很 快 ， 则 说 明 学 习 速 率 合适 ， 若 Ze 出现 振 划 现 象 ， 则 说 
明 学 习 速 率 过 大 。 对 于 每 一 个 具体 网 络 都 存在 一 个 合适 的 学 习 速 率 。 但 对 于 较 复 杂 网 络 ， 
在 误差 曲面 的 不 同 部 位 可 能 需要 不 同 的 学 习 速 率 。 为 了 减少 寻找 学 习 速率 的 训练 次 数 以 及 
训练 时 间 ， 比 较 合适 的 方法 是 采用 变化 的 自 适 应 学 习 速 率 ， 使 网 络 的 训练 在 不 同 的 阶段 自 
动 设置 不 同学 习 速 率 的 大 小 。 这 一 方法 将 在 后 面 讨论 . 

【 例 4.7 〗】 观 察 学 习 速率 太 大 的 影响 。 

具有 非 线性 激活 函数 的 各 层 网 络 对 大 的 学 习 速 率 很 敏感 。 对 于 非 线 性 网 络 ， 不 像 线 性 
网 络 那样 可 以 选择 一 个 最 优 学 习 速率 。 层 数 越 多 ， 网 络 训练 的 学 习 速 率 只 能 越 低 。 较 大 的 
学 习 速 率 极 易 产生 振荡 而 使 其 很 难 达到 期 望 的 目标 ， 有 的 甚至 发 散 。 为 了 演示 使 用 太 大 学 
习 速 率 的 后 果 ， 我 们 仍然 采用 简单 的 【 例 4.2 】 的 输入 /目标 输出 来 进行 观察 和 对 比 。 取 学 
习 速率 为 : 

IT = 4; 

再 次 训练 网 络 并 观察 其 训练 的 不 同 权 值 在 误差 等 高 线 图 中 的 轨迹 ， 如 图 4.21 所 示 。 图 
4.22 给 出 学 习 速 率 的 记录 ， 图 中 纵 轴 表 示 学 习 速率 ， 横 轴 为 训练 次 数 。 从 中 可 以 看 到 ， 较 
大 的 学 习 速率 在 训练 初始 阶段 并 不 成 问题 ， 且 能 够 加 速 误差 的 减少 ， 能 比 一 般 的 训练 学 习 
速率 产生 更 佳 的 误差 减 小 率 。 但 是 随 着 训练 的 不 断 深入 则 出 现 了 问题 。 由 于 学 习 速 率 过 大 ， 
使 网 络 每 一 次 的 修正 值 太 大 ， 从 而 导致 在 权 值 的 修正 过 程 中 超出 误差 的 最 小 值 而 永 不 收 
敛 ， 

避免 这 一 情况 发 生 的 办 法 就 是 减少 学 习 速 率 。 当然 ， 经 验 在 选取 学 习 速率 时 是 很 有 帮 
助 的 。 再 就 是 采用 后 面 将 要 讲 到 的 自 适 应 学 习 速率 ， 使 网 络 根据 不 同 的 训练 阶段 自动 调节 
其 学 习 速 率 。 
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图 4.21 网 络 训练 过 程 记 录 图 4.22 ”学习 速率 的 记录 








4.4.5 期 望 误 差 的 选取 


在 设计 网 络 的 训练 过 程 中 ， 期 望 误 差 值 也 应 当 通 过 对 比 训练 后 确定 一 个 合适 的 值 ， 这 
个 所 谓 的 “合适 ”， 是 相对 于 所 需要 的 隐 含 层 的 节点 数 来 确定 ， 因 为 较 小 的 期 望 误 差 值 是 
要 靠 增加 隐 含 层 的 节点 ， 以 及 训练 时 间 来 获得 的 .一 般 情 况 下 ， 作 为 对 比 ， 可 以 同时 对 两 
个 不 同期 望 误 差 值 的 网 络 进行 训练 ， 最 后 通过 综合 因素 的 考虑 来 确定 采用 其 中 一 个 网 络 . 


4.$ 限制 与 不 足 


虽然 反 向 传播 法 得 到 广泛 的 应 用 ， 但 它 也 存在 自身 的 限制 与 不 足 ， 其 主要 表现 在 于 它 
的 训练 过 程 的 不 确定 上 。 具 体 说 明 如 下 : 

(1 ) 需要 较 长 的 训练 时 间 

对 于 一 些 复杂 的 问题 ， BP 算法 可 能 要 进行 几 小 时 甚至 更 长 的 时 间 的 训练 。 这 主要 是 
由 于 学 习 速 率 太 小 所 造成 的 。 可 采用 变化 的 学 习 速 率 或 自 适应 的 学 习 速 率 来 加 以 改进 . 

(2 ) 完全 不 能 训练 

这 主要 表现 在 网 络 出 现 的 麻痹 现象 上 。 在 网 络 的 训练 过 程 中 ， 当 其 权 值 调 得 过 大 ， 可 
能 使 得 所 有 的 或 大 部 分 神经 元 的 加 权 总 和 靖 偏 大 ， 这 使 得 激活 函数 的 输入 工作 在 S 型 转移 
函数 的 饱和 区 ， 从 而 导致 其 导数 j (m) 非常 小 从 而 使 得 对 网 络 权 值 的 调节 过 程 几乎 停顿 
下 来 ， 通 常 为 了 避免 这 种 现象 的 发 生 ， 一 是 选取 较 小 的 初始 权 值 ， 二 是 采用 较 小 的 学 习 速 
率 ， 但 这 又 增加 了 训练 时 间 。 

(3 ) 局 部 极 小 值 

BP 算法 可 以 使 网 络 权 值 收敛 到 一 个 解 , 但 它 并 不 能 保证 所 求 为 误差 超 平面 的 全 局 最 小 
解 ， 很 可 能 是 一 个 局 部 极 小 解 。 这 是 因为 BP 算法 采用 的 是 梯度 下 降 法 ， 训 练 是 从 某 一 起 
始点 沿 误差 函数 的 斜面 逐渐 达到 误差 的 最 小 值 。 对 于 复杂 的 网 络 ， 其 误差 函数 为 多 维 空间 
的 曲面 ， 就 像 一 个 碗 ， 其 碗 底 是 最 小 值 点 。 但 是 这 个 碗 的 表面 是 凹凸 不 平 的， 因而 在 对 其 
训练 过 程 中 ， 可 能 陷 人 某 一 小 谷 区 ， 而 这 一 小 谷 区 产生 的 是 一 个 局 部 极 小 值 。 由 此 点 向 各 
方向 变化 均 使 误差 增加 ， 以 致 于 使 训练 无 法 逃 出 这 一 局 部 极 小 值 。 

如 果 对 训练 结果 不 满意 的 话 ， 通 常 可 采用 多 层 网 络 和 较 多 的 神经 元 ， 有 可 能 得 到 更 好 
的 结果 。 然 而 ， 增 加 神经 元 和 层 数 ， 同 时 增加 了 网 络 的 复杂 性 以 及 训练 的 时 间 。 在 一 定 的 
情况 下 可 能 是 不 明智 的 。 可 代替 的 办 法 是 选用 几 组 不 同 的 初始 条 件 对 网 络 进 行 训 练 ， 以 从 
中 挑选 它们 的 最 好 结果 。 

【 例 4.8 了】 误差 的 局 部 和 全 局 最 小 值 的 观察 。 

非 线 性 网 络 引进 了 线性 网 络 所 没有 的 复杂 性 。 线 性 网 络 在 其 误差 曲面 上 只 有 唯一 的 一 
个 最 小 值 ， 而 非 线性 网 络 可 能 存在 几 个 局 部 极 小 值 。 这 些 极 小 值 是 各 不 相同 的 。 好 比 在 同 
一 个 海拔 上 有 几 个 深度 不 同 的 峡谷 。 理 想 的 网 络 应 当 具 有 最 小 误差 的 网 络 ， 即 全 局 误差 最 
小 的 网 络 。 但 所 采用 的 基于 梯度 下 降 法 的 BP 算法 并 不 能 保证 做 到 这 一 点 。 网 络 有 可 能 被 
陷入 到 误差 曲面 的 一 个 较 高 的 谷中 ， 即 局 部 极 小 值 点 。 


< 








这 里 沿用 【 例 4.3 〗】 中 的 输入 矢量 和 目标 矢量 来 观察 误差 的 局 部 与 全 局 最 小 值 的 问题 。 
其 误差 曲面 以 及 误差 的 等 高 线 图 形 如 图 4.23 所 示 。 从 图 中 可 看 到 这 两 个 误差 表面 在 图 的 中 
心 有 全 局 最 小 值 ， 谷 的 两 边 均 有 局 部 极 小 值 。 这 个 情况 在 误差 等 高 线 上 的 右 顶 部 和 右 底部 
能 够 清楚 地 找到 . 初始 权 值 为 : W0 = 0.8951; B0 = -0.5897 .等 高 线 图 形 中 的 “+?" 表 示 初 始 
权 值 时 的 误差 值 。 用 其 开始 训练 网 络 如 图 4.24(a) 轨 迹 中 可 以 看 到 ， 网 络 沿 着 误差 梯度 直 落 
到 全 局 最 小 值 。 若 全 局 最 小 值 比 期 望 误差 值 小 ， 那 么 即 可 解决 问题 。 图 4.24(b) 给 出 了 训练 
过 程 中 的 误差 记录 。 





(a) 网 络 癌 差 曲面 图 @) 网 络 误差 等 高 线 图 
图 4.23 ”网络 误差 曲面 图 与 等 高 线 图 
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(a) 网 络 权 值 训练 过 程 记录 (b) 误差 过 程 记 录 


图 4.24 网 络 权 值 训练 过 程 及 其 误差 记录 


当 网 络 选取 不 同 的 初始 值 ， 如 : W0 = -0.0511;  B0 = -2.4462 ; 则 导致 不 同 的 训练 结 
果 如 图 4.25 所 示 。 





此 时 ， 网 络 达 不 到 全 局 最 小 值 ， 而 是 落 入 了 谷中 的 一 个 局 部 极 小 值 。 由 于 这 个 谷 是 很 
浅 的 ， 所 以 导致 网 络 的 学 习 减 速 ， 最 终 达 到 局 部 极 小 值 。 


SSE 
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(a) 局 部 极 小 值 训练 过 程 记录 (b) 误差 过 程 记 录 
图 4.25 ”网络 权 值 变化 过 程 及 其 误差 记录 


我 们 如 何 来 对 待 并 解决 局 部 极 小 值 的 问题 ?希望 产生 一 个 完全 避免 极 小 值 的 算法 至 今 
还 没有 可 能 .一 个 较 现实 的 做 法 是 ， 训 练 网 络 使 其 具有 足够 低 的 可 接受 的 误差 。 这 样 ， 无 
论 网 络 是 否 落 人 局 部 极 小 值 ， 问 题 都 得 到 了 解决 。 可行 方法 之 一 就 是 采用 比 所 需要 的 更 强 
大 的 网 络 来 解决 问题 。 例 如 ， 增 加 较 多 的 神经 元 层 ， 较 多 的 神经 元 数 ， 这 些 都 常常 有 助 于 
达到 期 望 的 误差 。 另 一 个 可 用 来 跳出 较 浅 的 目 凸 不 平 区 域 的 局 部 极 小 值 的 技术 是 下 面 要 介 
绍 的 附加 动量 法 。 


4.6 反 向 传播 法 的 改进 方法 


由 于 在 人 工 神经 网 络 中 ， 反 疝 传播 法 占据 了 非常 重要 的 地 位 ， 所 以 近 十 几 年 来 ， 许 多 
研究 人 员 对 其 做 了 深入 的 研究 ， 提 出 了 很 多 改进 的 方法 。 主 要 目标 是 为 了 加 快 训练 速度 ， 
避免 陷 人 局 部 极 小 值 和 改善 其 它 能 力 。 本 节 只 讨论 前 两 种 性 能 的 改进 方法 的 有 关内 容 。 


4.6.1 附加 动量 法 


附加 动量 法 使 网 络 在 修正 其 权 值 时 ， 不 仅 考虑 误差 在 梯度 上 的 作用 ， 而 且 考 虑 在 误差 
曲面 上 变化 趋势 的 影响 ， 其 作用 如 同一 个 低 通 滤 波 器 ， 它 允许 网 络 忽略 网 络 上 的 微小 变化 
特性 . 在 没有 附加 动量 的 作用 下 ， 网 络 可 能 陷 人 浅 的 局 部 极 小 值 ， 利 用 附加 动量 的 作用 则 
有 可 能 滑 过 这 些 极 小 值 。 

该 方法 是 在 反 向 传播 法 的 基础 上 在 每 一 个 权 值 的 变化 上 加 上 一 项 正比 于 前 次 权 值 变化 
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量 的 值 ， 并 根据 反 向 传播 法 来 产生 新 的 权 值 变化 . 带 有 附加 动量 因子 的 权 值 调 节 公 式 为 : 
Awi (KE+D=(1- mic)n5i/ +7CAWwi (K) 4 
Abi (+HD=(- mcmoi +7mcApi (K) 
其 中 丰 为 训练 次 数 ， mc 为 动量 因子 ， 一 般 取 0.95 左右 。 
附加 动量 潜 的 实质 是 将 最 后 一 次 权 值 变化 的 影响 ， 通 过 一 个 动量 因子 来 传递 。 当 动量 
因子 取 值 为 零 时 ， 权 值 的 变化 仅 是 根据 梯度 下 降 法 产生 ; 当 动 量 因子 取 值 为 1 时 ， 新 的 权 
值 变化 则 是 设置 为 最 后 一 次 权 值 的 变化 ， 而 依 梯度 法 产生 的 变化 部 分 则 被 忽略 掉 了 。 以 此 
方式 ， 当 增加 了 动量 项 后 ， 促 使 权 值 的 调节 向 着 误差 曲面 底部 的 平均 方向 变化 ， 当 网 络 权 
值 进入 误差 曲面 底部 的 平坦 区 时 ，6; 将 变 得 很 小 , 于 是 ，Awrj(E+D = Awr(E) ， 从 而 防止 
了 Arwir =0 的 出 现 ， 有 助 于 使 网 络 从 误差 曲面 的 局 部 极 小 值 中 跳出 。 
在 MAILAB 工具 箱 中 ， 带 有 动量 因子 的 权 值 修正 法 是 用 函数 learnbpm.m 来 实现 的 。 
在 使 用 此 函数 之 前 ， 先 需 将 初始 权 值 的 变化 置 零 : 
dW =0*W; dB =0*B; 
然后 ， 权 值 的 变化 可 以 根据 当前 层 的 输入 (比如 已 ) ， 误 差 变 化 ( D = deltalog.m， 
deltatan.m, deltalin.m ) ， 学 习 速 率 lr ， 以 及 动量 因子 mec 求 得 : 


fdw, dB ] = learnbpm (P,D,lr mc,dW, dB ); 


函数 learnbpm.m 返回 一 个 新 的 权 值 变化 和 偏差 变化 矢量 。 当 要 训练 一 个 没有 偏差 或 
具有 固定 偏差 的 网 络 时 ， dB 项 可 以 从 函数 中 消失 ， 这 样 ， 网 络 的 偏差 则 不 被 修正 。 

根据 附加 动量 法 的 设计 原则 ， 当 修正 的 权 值 在 误差 中 导致 太 大 的 增长 结果 时 ， 新 的 权 
值 应 被 取消 而 不 被 采用 ， 并 使 动量 作用 停止 下 来 ， 以 使 网 络 不 进入 较 大 误差 曲面 ; 当 新 的 
误差 变化 率 对 其 旧 值 超 过 一 个 事先 设 定 的 最 大 误差 变化 率 时 ， 也 得 取消 所 计算 的 权 值 变 
化 . 其 最 大 误差 变化 率 可 以 是 任何 大 于 或 等 于 !1 的 值 。 典 型 的 值 取 1.04 。 所 以 在 进行 附加 
动量 法 的 训练 程序 设计 时 ， 必 须 加 进 条 件 判断 以 正确 使 用 其 权 值 修正 公式 。 

训练 程序 中 对 采用 动量 法 的 判断 条 件 为 : 

| 当 SSE(E) > SSE(E- 1) . 104 
mc=d 0.95 当 SSE(K) < SSE(K- TD (4.12) 
mc ”其 他 

所 有 这 些 判断 过 程 细节 均 包 含 在 MATLAB 工具 箱 中 的 函数 trainbpmm 中 ， 它 可 以 训 
练 一 层 直至 三 层 的 带 有 附加 动量 因子 的 反 向 传播 网 络 。 以 调用 其 他 函数 的 同样 方式 调用 
trainbpm.m ， 只 是 对 变量 TP 需 提供 较 多 的 参数 。 下 面 是 对 单 层 网 络 使 用 函数 trainbpm.m 
的 情形 : 


[ W, B, epochs, errors ] = trainbpm ( W,B, FE P,T,TP ); 


TP 行 矢 量 中 的 训练 函数 是 训练 过 程 中 所 需 用 到 的 参数 ， 它 们 依次 为 : 显示 结果 的 频率 
disp_freq ， 期 望 的 误差 目标 err_goal ， 学 习 速 率 f ， 动 量 因子 me 以 及 最 大 误差 变化 率 





err_Tatio 。 

为 了 能 够 观察 附加 动量 法 的 作用 效果 ， 我 们 特地 选取 了 一 层 网 络 的 训练 作为 例子 ， 并 
且 令 其 偏差 固定 不 变 。 在 训练 过 程 中 ， 通 过 绘 出 权 值 与 输出 误差 的 函数 变化 图 形 显示 出 每 
训练 一 次 后 网 络 输出 误差 的 走向 ， 以 动态 变化 的 形式 形象 地 让 读者 感受 到 附加 动量 在 网 络 
训练 过 程 中 所 产生 的 作用 。 另 外 ， 在 训练 过 程 中 ， 由 此 可 以 观察 到 任意 初始 值 下 的 训练 过 
程 。 在 实际 网 络 的 设计 过 程 中 ， 除 非 网 络 比较 简单 ， 加 上 经 验 比较 丰富 ， 一 般 情况 下 是 不 
直接 采用 网 络 的 训练 函数 来 训练 网 络 ， 因 为 训练 画 数 只 有 在 整个 训练 完成 之 后 才 给 出 结 
果 。 对 于 复杂 网 络 ， 在 其 训练 过 程 中 ， 往 往 可 能 会 由 于 一 些 参数 选取 不 当 ， 如 学 习 速 率 可 
能 太 大 等 原因 ， 而 使 得 训练 不 合适 ， 如 果 设 置 的 训练 次 数 较 大 ， 如 几 千 次 ， 在 这 种 情况 下 ， 
花 了 很 长 时 间 获 得 的 训练 结果 很 可 能 是 无 效 的 。 较 好 的 做 法 是 写 出 训练 过 程 ， 并 在 其 中 加 
上 监视 作 图 程序 ， 这 样 可 以 使 设计 者 在 发 现 由 于 参数 设计 不 当 而 进行 无 用 训练 时 及 时 中 止 
训练 而 进行 调整 与 改进 . 

【 例 4.9 〗】 采 用 附加 动量 法 的 反 向 传播 网 络 的 训练 . 

下 面 以 【 例 4.3 1】 数据 为 例 编写 出 带 有 附加 动量 的 反 向 传播 法 以 及 具有 上 述 观 察 效果 
的 MATLAB 程序 。 


% bp9.m 

Z0 

clf reset 

pausetime = 0.1 

儿 初始 化 及 赋 初 值 

P= [-6.0 -6.1-4.1 -4.0 $.0 -3.16.06.1 ]; 
T=[ 0 0 0.970.99 0.01 0.03 1.0 1.0 ]; 

[R, Q ] =size(P);) [3S,Q]= size(T); 

disp(The bias B is fxed at 3.0 and will not learn.) 
Z1=meun(Intialize Weight with:，.… 


“W0 = [-0.9 ]; BO = 3 ，.… 多 按 给 定 初始 值 
“Pick Values with Mouse/Arrow Keys", .. 匈 用 鼠标 在 图 上 任 点 初始 值 
“Random Intial Condition [Default]; 多 随机 初始 值 ( 缺 省 情况 ) 
disp(”) 
BUO = 3; 


这 Z1=1 WO=[-0.9]; 

elseifZ1==3 W0=rand (SR); 

end 

Z2 menu (Use momentium constant of :，... 
“0.0 ，.… 
“0.95 [ Default ] ); 

disp( ) 

这 Z2 ==2 [W0, dummy ]= gmnput(1); 





end 

% 作 权 值 一 误差 关系 图 并 标注 初始 值 

A =logsig(W0O*P,B0); = 了 -和 Ai; SSE = sumsqr(E): 

h = plot (W0,SSE,m ”); 

Set (h, markersize",12); 

Pause2(pausetime); 

hold on 

多 训练 网 络 

disp_fqre = $; max_epoch = S00; er_goal = 0.01;  Ir = 0.053; 

让 Z2 一 1, momentum = 0; else momentum = 0.98; end 

err_ratio = 1.04; W=W0;B=B0; 

A=logsig(W0O*P,B0); 了 = 工 -Ai; SSE = sumsqr(E): 

mc = 0; daW = 0*dW; 包 初始 化 动量 因子 
for epoch = 1 : max_epoch 

过 SSE < err_goal, epoch = epoch - 1; break, end 

D=deltalog (A,E); dW =jlearnbpm (P,Dlrmc,dW);TW = W + dWi; 

TA =logsig (TW+*P,B);TE =T-TA;TSSE = sumsqr(TE); 

让 TSSE > SSExerr_ ratio, mc = 0; % 判断 动量 效果 
else 让 TSSE < SSE, mc = momentum' end 
W=TW;A=TA;E=TE;SSE =TSSE; end 

etrors = [ error SSE ]; 

% 显示 结果 

Plot(W,SSE,"xXg');pause,hold off 

Ploterr(errors),pause 

W,B 

SSE = Sumsqr(T-logsig(W#P,B)) 

end 


一 维 误差 曲线 图 如 图 4.26 所 示 。 可 以 看 到 在 误差 曲线 上 有 两 个 误差 最 小 值 ， 一 个 为 局 
部 极 小 值 在 左边 ,右边 的 为 全 局 最 小 值 。 本 例 中 的 缺 省 初始 值 为 WwW0 = -0.9 ， 并 表示 在 图 的 
左边 以 “ o” 表 示 。 如 果 动 量 因子 mc 取 为 0 ， 网 络 则 以 纯 梯 度 法 进行 训练 ， 此 举 的 结果 如 
图 4.27 所 示 。 其 误差 的 变化 趋势 是 以 简单 的 方式 “ 滚 到 ”局 部 极 小 值 的 底部 就 再 也 停止 不 
动 了 . 图 4.28 给 出 了 误差 记录 。 

当 采 用 附加 动量 法 后 ， 网 络 的 训练 则 可 以 自动 地 避免 陷 人 这 个 局 部 极 小 值 。 这 个 结果 
如 图 4.29 所 示 。 

网 络 的 训练 误差 先 落 人 局 部 极 小 值 ， 在 附加 动量 的 作用 下 ， 继 续 向 前 产生 一 个 正 向 斜 
率 的 运动 ， 并 跳出 较 浅 的 峰值 ， 落 人 了 全 局 最 小 值 。 然 后 ， 仍 然 在 附加 动量 的 作用 下 ， 达 
到 一 定 的 高 度 后 ( 即 产 生 了 一 个 SSE > SSE*1.04 ) 自动 返回 ， 并 像 弹子 滚动 一 样 来 回 左右 
摆动 ， 直 至 停留 在 最 小 值 点 上 。 
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-! 0 六 1 0 本 
图 4.26 ”网络 误 差 曲 线 图 图 4.27 mc =0 时 的 训练 结果 
SSE 
到 : 
100 
0 200 400 600 800 1000 -1 0 和 1 
Epoch 
图 4.28 ”训练 误差 记录 图 4.29 采用 附加 动量 法 的 训练 结果 


读者 可 以 执行 上 面 的 程序 来 观察 带 有 附加 动量 法 的 网 络 训练 的 全 过 程 ， 并 可 以 任意 选 
择 初 始 权 值 来 观察 其 训练 结果 。 


SSE 
10 1 


109 


0 100 00 300 


Epoch 
图 4.30 采用 动量 法 时 的 训练 误差 记录 
通过 观察 可 以 发 现 ,， 训练 参 数 的 选择 对 训练 效果 的 影响 是 相当 大 的 。 如 学 习 速 率 太 大 ， 


将 导致 其 误差 值 来 回 振 蔓 ; 学 习 速 率 太 小 ， 则 导致 太 小 动量 能 量 ， 从 而 使 其 只 能 跳出 很 浅 
的 “ 坑 ”。 对 于 较 大 的 “ 坑 ” 或 “ 谷 ”将 无 能 为 力 。 而 从 另 一 方面 来 看 ， 其 误差 曲线 ( 面 ) 





的 形状 与 凹凸 性 是 由 问题 的 本 身 决 定 的 ， 所 以 每 个 问题 都 是 不 相同 的 。 这 必然 对 学 习 速 率 
的 选择 带 来 了 困难 。 一 般 情 况 下 只 能 采用 不 同 的 学 习 速率 进行 对 比 尝试 ( 典型 的 值 取 为 
0.05 ) 。 

通过 观察 带 有 附加 动量 法 的 网 络 训练 的 过 程 还 使 我 们 感到 ， 对 于 这 种 训练 必须 给 予 足 
够 的 训练 次 数 ， 以 使 其 训练 结果 为 最 后 稳定 到 最 小 值 时 的 结果 ， 而 不 是 得 到 一 个 正好 摆动 
到 较 大 误差 值 时 的 网 络 权 值 。 

此 训练 方法 也 存在 有 缺点 。 它 对 训练 的 初始 值 有 要 求 ， 必 须 使 其 值 在 误差 曲线 上 的 位 
置 所 处 误差 下 降 方向 与 误差 最 小 值 的 运动 方向 一 致 。 如 果 初 始 误差 点 的 斜率 下 降 方向 与 通 
向 最 小 值 的 方向 背道而驰 ， 则 附加 动量 法 失效 。 训 练 结 果 将 同样 落 人 局 部 极 小 值 而 不 能 自 
拔 。 初始 值 选 得 太 靠近 局 部 极 小 值 时 也 不 行 ， 所 以 建议 多 用 几 个 初始 值 先 粗略 训练 几 次 以 
找到 合适 的 初始 位 置 。 另 外 ， 学 习 速 率 太 小 也 不 行 ， 比 如 对 于 本 例题 ， 选 择 r = 0.01 ， 网 
络 则 没有 足够 的 能 量 跳 过 低 “ 谷 ”。 


4.6.2 ”误差 函数 的 改进 


前 面 定义 的 函数 是 一 个 二 次 函数 : 
1 


已 = 一 -at 
2 k) 


当 改 趋向 1 时 ， 巨 趋向 一 个 常数 ， 即 处 于 巨 的 平坦 区 ， 从 而 造成 了 不 能 完全 训练 的 
麻 现 象 .所 以 当 一 个 网 络 的 误差 曲面 存在 着 平坦 区 时 , 可 以 选用 别 的 误差 函数 Fik ,ak ) 来 
代替 (上 - 中 壮 的 形式 ， 只 要 其 函数 在 ak = 灰 时 能 够 达到 最 小 值 即 可 。 

包 穆 (Baum) 等 人 于 1988 年 提出 一 种 误差 本 数 为 : 

于 上 Lelog 直 ] 
站 1+GK 

该 式 同样 满足 当 ak = 如 时 ， 巨 = 0 ， 不 过 ， 当 由 -~ + 1 时， 该 式 发 散 。 所 以 能 够 克服 

麻 记 现 象 。 如 果 采 用 双 曲 正切 函数 来 作为 激活 函数 ， 即 取 : 


1 -已 
1- Gk 








1 
+ 一 (1- 刀 )1 
了 (人 kt)log 


1- e- 和 如 ee -ee 
(7) = tanh(n) = 一 一 一 一 = 一 -一 
了 1+e 271 e7 +e 用 
又 因为 
人 2e"e 1 +e 27 2 
(ez +e 7 (es +e-m)2 
而 
全 十 和 ee 
术 芝 直人 网 
玫 -12 
0 


(e+e72 (e+e -77 





求 误 差 函 数 对 输出 层 的 变量 半 求 一 阶 导数 并 同时 考虑 关系 式 : at”′ =1- at : 
3 1 1+ak (+tJCar) 1- ak (toak 
< 一 = 二 (+ 引 ) RE 
oz 2 1T+ 帮 CL+ab)? 1- 姑 (1L- ab)? 

= 纹 -GK =G 

与 常规 的 误差 函数 的 情况 5 拖 ' (0D(-ar) 相 比较 ， 其 中 的 大 60 项 消失 了 。 这 样 ， 
当 半 增 大 ， 进 和 激活 函数 的 平坦 区 ， 使 六 (D) ~ 0 时， 不 会 产生 不 能 完全 训练 的 麻将 现象 。 
但 由 于 失去 了 (四 对 Aw 的 控制 作用 ， 过 大 的 Aw 又 有 可 能 导致 网 络 过 调 或 振 功 . 为 了 解 
决 这 个 问题 ， 1989 年 ， 范 尔 曼 (S. Fahlmanm) 提 出 一 种 折 中 的 方案 ， 即 取 6x = 上 (0D+0.1(r- 
ak )， 该 式 一 方面 恢复 了 ./”(m 的 某 些 影响 ， 另 一 方面 当 | 2” | 变 大 时 ， 仍 能 保持 5 有 一 
定 的 大 小 ， 从 而 避免 了 麻 闻 现 象 的 发 生 。 


(1- a2) 





G-a2)+5 (1 已 ) 


4.6.3 自 适 应 学 习 速 率 


对 于 一 个 特定 的 问题 ， 要 选择 适当 的 学 习 速率 不 是 一 件 容易 的 事情 。 通 常 是 任 经 验 或 
实验 获取 ,但 即使 这 样 ， 对 训练 开始 初期 功效 较 好 的 学 习 速 率 ， 不 见得 对 后 来 的 训练 合适 . 
为 了 解决 这 一 问题 ， 人 们 自然 会 想到 在 训练 过 程 中 ， 自 动 调整 学 习 速率 。 通 常 调节 学 习 速 
率 的 准则 是 : 检查 权 值 的 修正 值 是 否 真 正 降低 了 误 善 函数 ， 如 果 确 实 如 此 ， 则 说 明 所 选取 
的 学 习 速率 值 小 了 ， 可 以 对 其 增加 一 个 量 ; 若 不 是 这 样 ， 而 产生 了 过 调 ， 那 么 就 应 该 减 小 
学 习 速率 的 值 。 下 式 给 出 了 一 种 自 适 应 学 习 速 率 的 调整 公式 : 

LO 和 nk) SSE(E+1) <SSE(A) 
mnKE+D =JO7n(E) SSEE+D>104 SSE() (4.13) 
| mi 有 其 他 


初始 学 习 速 率 T(0) 的 选取 范围 可 以 有 很 大 的 随意 性 。 

【 例 4.10 〗 采 用 自 适 应 学 习 速 率 训练 网 络 。 

用 【 例 4.6 】 中 所 提出 的 初始 条 件 法 能 够 产生 比 【 例 4.1 〗 快 得 多 的 网 络 训练 结果 ， 说 
明 采 用 较 好 的 权 值 和 偏差 的 初始 值 ， 能 够 加 快 训 练 速率 。 如 果 再 加 用 自 适 应 学 习 速 率 ， 则 
能 够 更 进一步 地 减少 训练 时 间 。 

与 采用 附加 动量 法 时 的 判断 条 件 相仿 ， 当 新 误差 超过 有 旧 误差 一 定 的 倍数 时 ， 学 习 速率 
将 减少 ;否则 其 学 习 速率 保持 不 变 ; 当 新 误差 小 于 旧 误 差 时 ， 学 习 速 率 将 被 增加 。 此 方法 
可 以 保证 网 络 总 是 以 最 大 的 可 接受 的 学 习 速 率 进 行 训 练 。 当 一 个 较 大 的 学 习 速 率 仍 能 够 使 
网 络 稳定 学 习 ， 使 其 误差 继续 下 降 ， 则 增加 学 习 速 率 ， 使 其 以 更 大 的 学 习 速 率 进 行 学 习 。 
一 旦 学 习 速 率 调 得 过 大 ， 而 不 能 保证 误差 继续 减少 ， 则 减少 学 习 速 率直 到 使 其 学 习 过 程 稳 
定 为 止 。 

MAILAB 工具 箱 中 带 有 自 适 应 学 习 速率 进行 反 向 传播 训练 的 函数 为 :trainbpa.m 。 它 
可 以 训练 直至 三 层 网 络 。 使 用 方法 为 : 

[W,B,epochs,TE] = trainbpa(W,B, 上,P,T,TP) 

在 行 矢量 TP 中 的 参数 依次 为 : 显示 频率 disp_freq， 最 大 训练 次 数 max_epoch， 目 标 误 

差 err_goal, 初始 学 习 速 率 fr, 递增 乘 因子 r_inc, 递减 乘 因子 lr_dec 和 误差 速率 err_ratio 。 
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承 数 在 训练 结束 后 返回 最 终 权 值 W 和 偏差 B ， 训 练 网 络 所 用 次 数 epochs 和 训练 误差 记录 
TE 。 TE 是 两 个 行 矢量 ， 第 一 行为 网 络 的 训练 误差 ， 第 二 行为 所 对 应 的 学 习 速 率 。 

同 其 他 训练 函数 的 调用 方法 一 样 ， 这 个 训练 过 程 函数 的 应 用 非常 简单 ， 整 个 网 络 的 设 
计 训 练 过 程 只 需要 以 下 几 行 程序 : 


disp_freq = 10; 

Imax_epoch = 2000; 

er_goal =0.02; 

lr = 0.02; 

]r=_inc = 1.05; 

lr_idec = 0.7; 

er_ratio = 1.04; 

TP = [qisp_freq max_epoch err_goal Ir lr_inc lr_dec err_ratio]; 
[W1,Bl,W2,B2,epochs,TE] = trainbpa(W1,Bl, 'tansig ,W2,B2, purelin/,P,T,TP]; 


仅 训练 了 120 次 就 达到 了 目标 误差 0.02 的 目的 。 这 个 结果 只 是 采用 较 好 初始 条 件 情 况 
下 的 454 次 训练 的 近 四 分 之 一 倍 . 它 同时 是 固定 学 习 速 率 为 0.01 时 的 五 十 分 之 一 代 例 4.1 】 
中 的 训练 次 数 为 6801 ) 。 

图 4.31 给 出 了 学 习 速 率 在 训练 过 程 中 的 记录 。 误差 平方 和 的 记录 在 图 4.32 中 。， 
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图 431 训练 中 的 学 习 速 率 图 4.32 ”训练 中 的 误差 记录 


从 中 可 以 看 出 : 在 训练 的 初始 阶段 ， 学 习 速 率 是 以 直线 形式 上 升 。 当 接近 误差 最 小 值 
时 ， 学 习 速率 又 自动 地 下 降 。 注 意 误差 曲面 有 少许 的 波动 。 

可 以 将 动量 法 和 自 适应 学 习 速 率 结合 起 来 以 利用 两 方面 的 优点 。 这 个 技术 已 编 人 了 函 
数 trainbpx.m 之 中 。 这 个 函数 的 调用 和 其 他 函数 一 样 ， 只 是 需要 更 多 的 初始 参数 而 已 : 


TP = [disp_freq max_epoch err_goal lr lr_inc lr_dec mom_const err_ratio]; 
[ W,B,epochs,[errors;lr]] = trainbpx ( W,B,F,P,T,TP ) 





4.6.4， 双 极 性 S 型 压缩 函数 法 


另外 一 种 改进 训练 性 能 的 简单 方法 为 双 极 性 S 型 压缩 函数 反 向 传播 法 。 一般 对 数 S 型 压 
缩 函 数 的 输出 动态 范围 为 (0,D)， 这 不 是 最 佳 的 ， 因 为 从 权 值 调节 公式 可 知 ， 权 值 的 变化 也 
正比 于 前 一 层 的 输出 ， 而 因 其 中 一 半 是 趋向 0 的 一 边 ， 这 必然 引起 权 值 调节 量 的 减少 或 不 调 
节 ， 从 而 加 长 了 训练 时 间 。 为 了 解决 这 个 问题 ， 可 将 输入 范围 变 为 112， 同 时 也 使 $ 型 呆 数 
置 偏 的 输出 范围 也 变 为 + 12， 即 由 





改 为 











1] 1 1 1 
过 )2 = (-- 一 一 


激活 天 数 的 一 阶 导 数 此 时 为 : 
SEE 1 
CG 三 一 一 二- -一 = 一 一- 一 -一 
在 吉 全国 2 人 本 同一， 放下 全 的 和 和 人 
1 ,1 1 、 2，1 2 
人 ER 
4 4 1+e 7 1+e 7 4 
实验 证 明 ， 采 用 此 方法 ， 收 敛 时 间 平 均 可 以 减少 30~50%。 当 然 ， 若 采用 此 方法 来 训练 
网 络 ， 其 训练 程序 需要 设计 者 自己 编写 一 部 分 。 





4.7 ”本章 小 结 


1 ) 反 向 传播 法 可 以 用 来 训练 具有 可 微 激 活 函 数 的 多 层 前 向 网 络 以 进行 函数 逼近 ， 模 
式 分 类 等 工作 ; 

2 ) 反 向 传播 网 络 的 结构 不 完全 受 所 要 解决 的 问题 所 限制 。 网 络 的 输 和 人 神经 元 数目 及 
输出 层 神经 元 的 数目 是 由 问题 的 要 求 所 决定 的 ， 而 输入 和 输出 层 之 间 的 隐 含 层 数 以 及 每 层 
的 神经 元 数 是 由 设计 者 来 决定 的 ; 

3 ) 已 证 明 ， 两 层 $ 型 /线性 网 络 ， 如 果 $ 型 屋 有 足够 的 神经 元 ， 则 能 够 训练 出 任意 输 
人 和 输出 之 间 的 有 理 函 数 关 系 ; 

4 ) 反 向 传播 法 沿 着 误差 表面 的 梯度 下 降 ， 使 网 络 误差 最 小 ， 网 络 有 可 能 陷 人 局 部 极 
小 值 ; 

S ) 附加 动量 法 使 反 向 传播 减少 了 网 络 在 误差 表面 陷 人 低谷 的 可 能 性 并 有 助 于 减少 训 
练 时 间 ; 


Mo 





6 ) 太 大 的 学 习 速 率 导 致 学 习 的 不 稳定 ， 太 小 值 又 导致 极 长 的 训练 时 间 。 自 适应 学 习 
速率 通过 在 保证 稳定 训练 的 前 担 下 ， 达 到 了 合理 的 高 速率 ， 可 以 减少 训练 时 间 ; 

7 ) 80%~90% ”的 实际 应 用 都 是 采用 反 向 传播 网 络 的 。 改 进 技术 可 以 用 来 使 反 向 传播 
法 更 加 容易 实现 并 需要 更 少 的 训练 时 间 。 


习 题 


g 4.1 〗 运用 将 附加 动量 法 和 自 适 应 学 习 速 率 相 结合 的 技术 的 算法 函数 trainbpx.m 训 
练 【 例 4.1 了 并 与 其 他 方法 的 训练 结果 相 比 较 。 

〖 4.2 3 根据 所 学 过 的 BP 网 络 设计 及 改进 方案 设计 实现 模糊 控制 规则 为 了 = 1/2* ( e+ 
ec ) 的 模糊 神经 网 络 控制 器 。 设 计 要 求 为 : 

@ 输 入 、 输 出 矢量 及 问题 的 阐述 ; 

@ 给 出 网 络 结构 ; 

图 学 习 方法 (包括 所 采用 的 改进 方法 ) ; 

图 初始 化 及 必要 的 参数 选取 ; 

四 最 后 的 结果 ， 循 环 次 数 ， 训 练 时 间 ， 其 中 着 重 讨论 : 

a) 不 同 隐 含 层 S1 时 的 收敛 速度 与 误差 精度 的 对 比分 析 ， 

b) 当 S1 设置 为 较 好 的 情况 下 , 在 训练 过 程 中 取 始 终 不 变 的 学 习 速率 节 值 时 , 对 kr 值 为 
不 同 值 时 的 训练 时 间 ， 包 括 稳定 性 进行 观察 比较 ， 

c) 当 采用 自 适 应 值 学 习 速 率 时 ， 与 单一 固定 的 学 习 速 率 ir 中 最 好 的 情况 进行 对 比 训练 
的 观察 ， 

d) 给 出 结论 或 体会 。 

@@ 验 证 ， 采 用 插值 法 选取 多 于 训练 时 的 输入 ， 对 所 设计 的 网 络 进行 验证 ， 给 出 验证 的 
4 与 7 值 . 





第 五 章 ”反馈 网 络 


反馈 网 络 ( Recurrent Network ) ， 又 称 自 联 想 记忆 网 络 ， 其 目的 是 为 了 设计 一 个 网 
络 ， 储 存 一 组 平衡 点 ， 使 得 当 给 网 络 一 组 初始 值 时 ， 网 络 通过 自行 运行 而 最 终 收 敛 到 这 个 
设计 的 平衡 点 上 。 

1982 年 ， 美 国 加 州 工学 院 物理 学 家 堆 普 菲尔德 ( JHopfield ) 发 表 了 一 篇 对 人 工 神经 

网 络 研究 类 有 影响 的 论文 。 他 提出 了 一 种 具有 相互 联接 的 反馈 型 人 工 神经 网 络 模型 ， 并 将 
“能 量 函 数 ” 的 概念 引入 到 对 称 霍 普 菲尔德 网 络 的 研究 中 ， 给 出 了 网 络 的 稳定 性 判 据 ， 并 
用 来 进行 约束 优化 问题 ， 如 TSP 问题 的 求解 ， 实 现 A/D 转换 等 。 他 利用 多 元 截 普 菲尔德 网 
络 的 多 上 吸 引子 及 其 吸引 域 ， 实 现 了 信息 的 联想 记忆 ( associative memory ) 功能 。 另 外 霍 普 
菲尔德 网 络 与 电子 模拟 线路 之 间 存 在 着 明显 的 对 应 关系 ， 使 得 该 网 络 易于 理解 且 便于 实 
现 。 而 它 所 执行 的 运算 在 本 质 上 不 同 于 布尔 代数 运算 ， 对 新 一 代 电 子 神经 计算 机 具有 很 大 
的 吸引 力 。 

反馈 网 络 能 够 表现 出 非 线性 动力 学 系统 的 动态 特性 。 它 所 具有 的 主要 特性 为 以 下 两 
点 : 第 一 ， 网 络 系统 具有 若干 个 稳定 状态 。 当 网 络 从 某 一 初始 状态 开始 运动 ， 网 络 系统 总 
可 以 收敛 到 某 一 个 稳定 的 平衡 状态 ;第 二 ， 系 统 稳定 的 平衡 状态 可 以 通过 设计 网 络 的 权 值 
而 被 存储 到 网 络 中 。 

如 果 将 反馈 网 络 稳定 的 平衡 状态 作为 一 种 记忆 ， 那 么 当 网 络 由 任 一 初始 状态 向 稳 态 的 
转化 过 程 ， 实 质 上 是 一 种 寻找 记忆 的 过 程 。 网 络 所 具有 的 稳定 平衡 点 是 实现 联想 记忆 的 基 
础 。 所 以 对 反馈 网 络 的 设计 和 应 用 必须 建立 在 对 其 系统 所 具有 的 动力 学 特性 理解 的 基础 
上 ， 这 其 中 包括 网 络 的 稳定 性 ， 稳 定 的 平衡 状态 ， 以 及 判定 其 稳定 的 能 量 函 数 等 基本 概念 。 

针对 人 工 神 经 网 络 的 特点 ， 若 按 其 运行 过 程 的 信息 流向 来 分 类 ， 则 可 分 为 两 大 类 : 前 
向 网 络 和 反馈 网 络 。 在 前 面 的 章节 里 ， 主 要 介绍 了 前 向 网 络 ， 通 过 许多 具有 简单 处 理 能 力 
的 神经 元 的 相互 组 合作 用 使 整个 网 络 具 有 复杂 的 非 线性 逼近 能 力 。 在 那里 ， 着 重 分 析 的 是 
网 络 的 学 习 规 则 和 训练 过 程 ， 并 研究 如 何 提高 网 络 整体 非 线性 处 理 能 力 。 在 本 章 中 ， 我 们 
将 集中 讨论 反馈 网 络 ， 通 过 网 络 神经 元 状态 的 变迁 而 最 终 稳定 于 平衡 状态 ,得 到 联想 存储 或 
优化 计算 的 结果 。 在 这 里 ， 着 重 关心 的 是 网 络 的 稳定 性 问题 ， 研 究 的 重点 是 怎样 得 到 和 利 
用 稳定 的 反馈 网 络 。 

反馈 式 网 络 有 多 种 ， 这 里 主要 讨论 由 霍 普 菲 尔 德 提出 的 反馈 网 络 。 和 霍 普 菲尔德 网 络 是 
单 层 对 称 全 反馈 网 络 ， 根 据 其 激活 函数 的 选取 不 同 ， 可 分 为 离散 型 的 霍 普 菲尔德 网 络 
( Discrete Hopfield Neural Network， 简 称 DHNN ) 和 连续 型 的 霍 普 菲尔德 网 络 ( Continuous 
Hopfield Neural Network， 简 称 CHNN ) 。 DHNN 的 激活 函数 为 二 值 型 的 ， 其 输入 、 输 出 为 
{0,1} 的 反馈 网 络 , 主要 用 于 联想 记忆 ， CHNN 的 激活 函数 的 输入 与 输出 之 间 的 关系 为 连续 
可 微 的 单调 上 升 丁 数 ， 主 要 用 于 优化 计算 。 

霍 普 菲 尔 德 网 络 已 经 成 功 地 应 用 于 多 种 场合 ， 现 在 仍 常 有 新 的 应 用 的 报道 。 具 体 的 应 
用 方向 主要 集中 在 以 下 方面 : 图 像 处 理 、 语 声 处 理 、 信 和 号 处 理 、 数 据 查 询 、 容 错 计算 、 模 


ET 





式 分 类 、 模 式 识别 等 。 
S.1 霍 普 菲尔德 网 络 模型 


反馈 网 络 的 网 络 结构 如 图 5.1 所 示 。 





1 
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图 5.1 反馈 网 络 结构 图 


该 网 络 为 单 层 全 反馈 网 络 ， 其 中 的 每 个 神经 元 的 输出 都 是 与 其 他 神经 元 的 输入 相连 
的 。 所 以 其 输入 数目 与 输出 层 神 经 元 的 数目 是 相等 的 ， 有 上 = 8 。 
在 反馈 网 络 中 ， 如 果 其 激活 函数 九 . ) 是 一 个 二 值 型 的 硬 郴 数 ， 如 图 5.2 所 示 ， 即 
4 =ssn(6)， LE=12…r， 则 称 此 网 络 为 离散 型 反馈 网 络 , 如 果 s4 = fo) 中 的 太 . ) 为 一 个 
连续 单调 上 升 的 有 界 函 数 ， 这 类 网 络 被 称 为 连续 型 反馈 网 络 ， 图 5.3 中 所 示 为 一 个 具有 饱 
和 线性 激活 函数 ， 它 满足 连续 单调 上 升 的 有 界 函 数 的 条 件 ， 常 作为 连续 型 的 激活 函数 
了 





图 $5.2 DHNN 中 的 激活 函数 图 $5.3 CHNN 中 的 激活 琐 数 
S.2 ”状态 轨迹 


对 于 一 个 由 上 个 神经 元 组 成 的 反馈 网 络 ， 若 将 加 权 输 入 和 半 视 作 网 络 的 状态 ， 则 状态 
矢量 N =[mz22 六] 二 ， 网 络 的 输出 矢量 为 4=[al,az, ,ay] 。 在 某 一 时 刻 ! ， 分 别 用 





ND 和 4(D 来 表示 各 自 的 矢量 。 在 下 一 时 刻 线 1 ， 可 得 到 NG+D， 而 NGC+IH) 又 引起 4G+D 
的 变化 ， 这 种 反馈 演化 的 过 程 ， 使 状态 矢量 NO 随时 间 发 生变 化 。 在 一 个 > 维 状态 空间 上 ， 
可 以 用 一 条 轨迹 来 描述 状态 变化 情况 ， 从 初始 值 Wo) 出 发 ， NGoi+A D 一 No+2 人 日 ~ … 
~” No+m A 0,， 这 些 在 空间 上 的 点 组 成 的 确定 轨迹 ， 是 演化 过 程 中 所 有 可 能 状态 的 集合 ， 
我 们 称 这 个 状态 空间 为 相 空间 。 图 5.4 描述 了 一 个 三 维 相 空间 上 三 条 不 同 的 轨迹 ， 对 于 
DHNN ， 因 为 WO 中 每 个 值 只 可 能 为 1 ， 或 {0,1}， 对 于 确定 的 权 值 wW ， 其 轨 半 是 跳跃 的 
阶梯 式 ， 如 图 中 4 所 示 ， 对 于 CHNN ， 因 为 丸 . ) 是 连续 的 ， 因 而 ， 其 轨迹 也 是 连续 的 。 
如 图 中 妃 、C 所 示 。 


ML ) 


NG ) 
0 





5.4 三 维 空间 中 的 状态 轨迹 


对 于 不 同 的 连接 权 值 wW 和 输入 已 (=L 2,…, 娓 ， 反 馈 网 络 状 态 轨迹 可 能 出 现 以 下 几 
种 情况 . 


5.2.1 ”状态 轨迹 为 稳定 点 


状态 轨迹 从 系统 在 时 状态 的 初 值 Wuo) 开 始 , 经 过 一 定 的 时 间 !(f > 0) 后 ,到 达 Ndto+b。 
如 果 N(o +t+A)=NGo+hDAr>0， 则 状态 N(to+D0) 称 为 网 络 的 稳定 点 ， 或 平衡 点 。 
由 于 N(to + 六 不 再 变化 ， 对 于 P(to + 六) 也 达到 了 稳定 值 。 即 反馈 网 络 从 任 一 初始 态 P(0O) 开 
始 运动 , 若 存在 某 一 有 限时 刻 : ,从 上 以 后 的 网 络 状态 不 再 发 生变 化 : _Pft+Ab) = P( 引 Ar>0， 
则 称 该 网 络 是 稳定 的 。 处 于 稳定 时 的 网 络 状态 叫做 稳定 状态 ， 又 称 为 定 吸引 子 。 

对 于 非 线性 系统 来 说 ， 不 同 的 初始 值 Wo)， 可 能 有 不 同 的 轨迹 ， 到 达 不 同 的 稳定 点 ， 
这 些 稳 定点 ， 也 可 以 认为 是 人 工 神经 网 络 的 解 。 在 一 个 反馈 网 络 中 ， 存 在 很 多 稳定 点 ， 根 
据 不 同情 况 ， 这 些 稳定 点 可 以 分 为 : 

1 ) 渐 近 稳定 点 : 如 果 在 稳定 点 Ne 周围 的 N(G) 区 域内 ， 从 任 一 个 初始 状态 N(to) 出 发 
的 每 个 运动 ， 当 上 一 汪 时 都 收敛 于 Ne， 则 称 Ne 为 渐 近 稳定 点 。 此 时 ,不 仅 存 在 一 个 稳定 点 
Ne， 而 且 存在 一 个 稳定 域 。 有 时 称 此 稳定 点 为 吸引 子 ， 其 对 应 的 稳定 域 为 吸引 域 ; 

2 ) 不 稳定 平衡 点 No : 在 某 些 特定 的 轨迹 演化 过 程 中 ， 网 络 能 够 到 达 稳 定点 Nm ， 但 
对 于 其 它 方 向 上 的 任意 一 个 小 的 区 域 W(G)， 不管 N(G) 取 多 么 小 ， 其 轨迹 在 时 间 上 以 后 总 
是 偏离 Na ; 





3 ) 网 络 的 解 : 如 果 网 络 最 后 稳定 到 设计 人 员 期 望 的 稳定 点 ， 且 该 稳定 点 又 是 渐 近 稳 
定点 ， 那 么 这 个 点 称 为 网 络 的 解 ; 

4 ) 网 络 的 伪 稳定 点 : 网 络 最 终 稳 定 到 一 个 渐 近 稳定 点 上 ， 但 这 个 稳定 点 不 是 网 络 设 
计 所 要 求 的 解 ， 这 个 稳定 点 为 伪 稳 定点 。 

在 一 个 非 线 性 的 反馈 网 络 中 ， 存 在 着 这 些 不 同类 型 的 稳定 点 ， 而 网 络 设计 的 目的 是 希 
望 网 络 最 终 收 敛 到 所 要 求 的 稳定 点 上 ， 并 且 还 要 有 一 定 的 稳定 域 。 


5.2.2 ”状态 轨迹 为 极限 环 


如 果 在 某 些 参数 的 情况 下 ， 状 态 NO) 的 轨迹 是 一 个 网 ， 或 一 个 环 ， 状 态 N(D 沿 着 环 重 
复 旋转 ， 永 不 停止 ， 此 时 的 输出 4(0 也 出 现 周期 变化 ， 即 出 现 振 功 ， 如 图 5.4 中 5C 的 轨迹 
即 是 极限 环 出 现 的 情形 。 对 于 DHNN ， 轨 迹 变化 可 能 在 两 种 状态 下 来 回 跳动 ， 其 极限 环 为 
2 。 如 果 在 ~ 种 状态 下 循环 变化 ， 称 其 极限 环 为 上 。 


$.2.3 ”混沌 现象 


如 果 状 态 MG) 的 轨迹 在 某 个 确定 的 范围 内 运动 ， 但 既 不 重复 ， 又 不 能 停 下 来 ， 状 态 变 
化 为 无 穷 多 个 ， 而 轨迹 也 不 能 发 散 到 无 穷 远 ， 这 种 现象 称 为 混沌 (chaos)。 在 出 现 混沌 的 情 
况 下 ， 系 统 给 出 变化 为 无 穷 多 个 ， 并 且 随 时 间 推 移 不 能 趋向 稳定 ， 但 又 不 发 散 。 这 种 现象 
越 来 越 引 起 人 们 的 重视 ， 因 为 在 脑 电 波 的 测试 中 已 发 现 这 种 现象 ， 而 在 真正 的 神经 网 络 中 
存在 这 种 现象 ， 也 应 在 人 工 神经 网 络 中 加 以 考虑 。 


5.2.4 ”状态 轨迹 发 散 


如 果 状 态 NG 的 轨迹 随时 间 一 直 延 伸 到 无 穷 远 ， 此 时 状态 发 散 ， 系 统 的 输出 也 发 散 。 
在 人 工 神 经 网 络 中 ， 由 于 输入 、 输 出 激活 函数 上 一 个 有 界 函 数 ， 虽 然 状态 NO 是 发 散 的 ， 
但 其 输出 4(D 还 是 稳定 的 ,而 4(2% 的 稳定 反 过 来 又 限制 了 状态 的 发 散 . 一 般 非 线 性 人 工 神经 
网 络 中 发 散 现 象 是 不 会 发 生 的 ， 除 非 神经 元 的 输入 /和 输出 激活 函数 是 线性 的 . 

对 于 一 个 由 个 神经 元 组 成 的 反馈 系统 ， 它 的 行为 就 是 由 这 些 状 态 轨迹 的 情况 来 决定 
的 。 目前 的 人 工 神 经 网 络 是 利用 第 一 种 情况 即 稳定 的 专门 轨迹 来 解决 某 些 问题 的 。 如 果 把 
系统 的 稳定 点 视 做 一 个 记忆 的 话 ， 那 么 从 初始 状态 朝 这 个 稳定 点 移动 的 过 程 就 是 寻找 该 记 
忆 的 过 程 。 状 态 的 初始 值 可 以 认为 是 给 定 的 有 关 该 记忆 的 部 分 信息 ， 状 态 NOD 移 动 的 过 程 ， 
是 从 部 分 信息 去 寻找 全 部 信息 ， 这 就 是 联想 记忆 的 过 程 。 如 果 把 系统 的 稳定 点 考虑 为 一 个 
能 量 杖 数 的 极 小 点 ， 在 状态 空间 中 ， 从 初始 状态 N(to) = N(Lo +D， 最 后 到 达 N . 若 六 为 
稳定 点 ， 则 可 以 看 作 是 六 把 N(to) 吸 引 了 过 去 ,在 W(to) 时 能 量 比较 大 ， 而 吸引 到 N 时 能 
量 已 为 极 小 了 。 根据 这 个 道理 ,可 以 把 这 个 能 量 的 极 小 点 作为 一 个 优化 目标 函数 的 极 小 点 ， 
把 状态 变化 的 过 程 看 成 是 优化 某 一 个 目标 函数 的 过 程 。 因 此 反馈 网 络 的 状态 移动 的 过 程 实 
际 上 是 一 种 计算 联想 记忆 或 优化 的 过 程 。 它 的 解 并 不 需要 真 的 去 计算 ， 只 需要 去 形成 一 类 
反馈 神经 网 络 ， 适 当地 讨论 其 权重 值 w， 使 其 初始 输入 4(to) 向 稳定 吸引 子 状态 的 移动 就 可 





以 达到 这 个 目的 。 

霍 普 非 尔 德 网 络 是 利用 稳定 吸引 子 来 对 信息 进行 储存 的 ， 利 用 从 初始 状态 到 稳定 吸引 
子 的 运行 过 程 来 实现 对 信息 的 联想 存 取 的 。 通 过 对 神经 元 之 间 的 权 和 阀 值 的 设计 ， 要 求 单 
层 的 反馈 网 络 达到 下 列 目标 : 

(1 工 ) 网 络 系统 能 够 达到 稳定 收 伊 

即 研究 系统 在 什么 条 件 下 不 会 出 现 振荡 和 混沌 现象 。 

(2 ) 网 络 的 稳定 点 

一 个 非 线性 网 络 能 够 有 很 多 个 稳定 点 ， 对 权 值 的 设计 ， 要 求 其 中 的 某 些 稳定 点 是 所 要 
求 的 解 。 对 于 用 做 联想 记忆 的 反馈 型 网 络 ， 希 望 稳定 点 就 是 一 个 记忆 ， 那 么 记忆 容量 就 与 
稳定 点 的 数量 有 关 ， 希 望 记忆 的 量 越 大 ， 那 么 ， 稳 定点 的 数目 也 越 大 ， 但 稳定 点 数目 的 增 
加 可 能 会 引起 吸引 域 的 减 小 ， 从 而 使 联想 功能 减弱 。 对 于 用 做 优化 的 反馈 网 络 ， 由 于 目标 
天 数 ( 即 系统 中 的 能 量 函 数 ) 往往 要 求 只 有 一 个 全 局 最 小 。 那 么 稳定 点 越 多 ， 陷 人 局 部 最 
小 的 可 能 性 就 越 大 ， 因 而 要 求 系统 的 稳定 点 越 少 越 好 . 

(3 ) 吸引 域 的 设计 

希望 的 稳定 点 有 尽 可 能 大 的 吸引 域 ， 而 非 希望 的 稳定 点 的 吸引 域 要 尽 可 能 的 小 。 因 为 
状态 空间 是 一 个 多 维 空间 ， 状 态 随 时 间 的 变化 轨迹 可 能 是 多 种 形状 ， 吸 引 域 就 很 难 用 一 个 
明确 的 解析 式 来 表达 ， 这 在 设计 时 要 尽 可 能 考虑 。 


5$.3 ”离散 型 堆 善 菲尔德 网 络 


5$.3.1 _DHNN 模型 结构 


在 DHNN 模型 中 ， 每 个 神经 元 节点 的 输出 可 以 有 两 值 状态 ，-1 或 1 (0 或 1 ) ， 其 输 
出 类 似 于 MP 神经 元 ， 可 表示 为 


T 》vwiai>0 
ai = 了 证 


= wifi <0 


7 
在 上 式 中 ， 取 总 = 0 ， 权 和 矩阵 中 有 wj = wii， 且 到 wii =0。 即 DHNN 采用 对 称 联 接 . 
因此 ， 其 网 络 结构 可 以 用 一 个 加 权 无 向 量 图 表示 。 图 5.5(a) 为 一 个 3 节点 DHNN 结构 ， 其 
中 ， 每 个 输入 神经 元 节点 除了 不 与 具有 相同 节点 号 的 输出 相连 外 ， 与 其 他 节点 两 两 相连 。 
每 个 给 出 信号 又 反馈 到 相同 的 输入 节点 。 
由 图 5.5(a)， 考 虑 到 DHNN 的 权 值 特性 wj = Y 六 ， 网 络 各 节点 加 权 输 入 和 分 别 为 : 
31 三 W1242 十 W1323 
32 三 W2191 十 W2323 
33 三 W3101 十 W1342 


由 此 可 得 简化 后 等 效 的 网 络 结构 如 图 5.5(b) 所 示 
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ee 








(9) 逢 普 非 尔 德 网 络 结构 图 (b) 等 价 的 瞧 普 非 尔 德 网 络 图 
图 5.5 霍 普 菲 尔 德 网 络 图 


对 于 以 符号 函数 为 激活 函数 的 网 络 ， 网 络 的 方程 可 写 为 : 


Mi (人 = 》， wii 


i=1 
aj(+D= senfz /OO] (5.D 


1 DO>0 
-1 DO<0 


5$.3.2 ”联想 记忆 


联想 记忆 功能 是 DHNN 的 一 个 重要 应 用 范围 。 要 想 实现 联想 记忆 ， 反 馈 网 络 必 须 具 有 
两 个 基本 条 件 : 〇 网 络 能 收敛 到 稳定 的 平衡 状态 ， 并 以 其 作为 样本 的 记忆 信息 ; @@ 具 有 回 
忆 能 力 ， 能 够 从 某 一 残缺 的 信息 回忆 起 所 属 的 完整 的 记忆 信息 ， 

DHNN 实现 联想 记忆 的 过 程 分 为 两 个 阶段 : 学 习 记 忆 阶 段 和 联想 回忆 阶段 。 在 学 习 记 
忆 阶 段 中 ,设计 者 通过 某 一 设计 方法 确定 一 组 合适 的 权 值 ,使 网 络 记忆 期 望 的 稳定 平衡 点 . 
而 联想 回忆 阶段 则 是 网 络 的 工作 过 程 。 此 时 ， 当 给 定 网 络 某 一 输入 模式 ， 网 络 能 够 通过 自 
身 的 动力 学 状态 演化 过 程 最 终 达 到 稳定 的 平衡 点 ， 从 而 实现 自 联想 或 异 联 想 回 忆 . 

反馈 网 络 有 两 种 基本 的 工作 方式 : 串 行 异 步 和 并 行 同步 方式 。 

1 ) 串 行 异步 方式 : 任意 时 刻 随机 地 或 确定 性 地 选择 网 络 中 的 一 个 神经 元 进行 状态 更 
新 ， 而 其 余 神 经 元 的 状态 保持 不 变 ; 

2 ) 并 行 同步 方式 : 任意 时 刻 网 络 中 部 分 神经 元 〈 比如 同一 层 的 神经 元 ) 的 状态 同时 
更 新 。 如 果 任 意 时 刻 网 络 中 全 部 神经 元 同时 进行 状态 更 新 ， 那 么 称 之 为 全 并 行 同步 方式 . 

对 于 个 神经 元 的 反馈 网 络 DHNN 有 2 个 状态 的 可 能 性 . 其 输出 状态 是 一 个 包含 -1 或 
1 (0 或 1 ) 的 矢量 ， 每 一 时 刻 网 络 将 处 于 某 一 种 状态 下 。 当 网 络 状 态 的 更 新 变化 采用 随 
机 异步 策略 ， 即 随机 地 选择 下 一 个 要 更 新 的 神经 元 ， 且 人 允许 所 有 神经 元 具有 相同 的 平均 变 
化 概率 。 在 状态 更 新 过 程 中 ， 包 括 三 种 情况 : 由 -1 变 为 1; 由 1 变 为 -! 及 状态 保持 不 变 ， 
在 任 一 时 刻 ， 网 络 中 只 有 一 个 神经 元 被 选择 进行 状态 更 新 或 保持 ， 所 以 异步 状态 更 新 的 网 
络 从 某 一 初 态 开 始 需 经 过 多 次 更 新 状态 后 才 可 以 达到 某 种 稳 态 。 这 种 更 新 方式 的 特点 是 : 
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实现 上 容易 ， 每 个 神经 元 有 自己 的 状态 更 新 时 刻 ， 不 需要 同步 机 制 ; 另外 ， 功 能 上 的 串 行 
状态 更 新 可 以 限制 网 络 的 输出 状态 ， 避 免 不 同 稳 态 等 概率 的 出 现 ; 再 者 ， 异 步 状 态 更 新 更 
接近 实际 的 生物 神经 系统 的 表现 。 


5.3.3 DHNN 的 海 布 学 习 规则 


在 DHNN 的 网 络 训练 过 程 中 ， 运 用 的 是 海 布 调节 规则 : 当 神 经 元 输入 与 输出 节点 的 状 
态 相同 ( 即 同 时 兴奋 或 抑制 ) 时 ， 从 第 / 个 到 第 个 神经 元 之 间 的 连接 强度 则 增强 ， 否 则 则 
减弱 . 海 布 法 则 是 一 种 无 指导 的 死记 式 学 习 算法 . 
离散 型 霍 普 菲 尔 德 网 络 的 学 习 目的 ， 是 对 具有 4 个 不 同 的 输入 样本 组 已 . y =[PLP2 … 
P], 希望 通过 调节 计算 有 限 的 权 值 矩阵 榴 , 使 得 当 每 一 组 输入 样本 尼 , 所 1 2，…, 94， 作 为 
系统 的 初始 值 ， 经 过 网 络 的 工作 运行 后 ， 系 统 能 够 收敛 到 各 自 输 入 样本 矢量 本 身 ， 当 上 = 1 
时 ， 对 于 第 ;个 神经 元 ， 由 海 布 学 习 规则 可 得 网 络 权 值 对 输入 矢量 的 学 习 关系 式 为 : 
wj 一 CD (5.2) 
其 中 , a > 0,i =1, 2, ,rm 了 = 1, 2, ..,r 。 在 实际 学 习 规 则 的 运用 中 ， 一 般 取 a = 1 或 
-= 了。(5.) 式 表明 了 海 布 调节 规则 ; 神经 元 输入 忆 与 输出 4 的 状态 相同 ( 即 同时 为 正 或 


为 负 ) 时 ， 从 第 7 个 到 第 工 个 神经 元 之 间 的 连接 强度 wj 则 增强 ( 即 为 正 ) ， 否 则 w 则 减弱 
(为 负 ) 。 

那么 由 (5.2) 式 求 出 的 权 值 由 是 否 能 够 保证 4 = 六? 取 Q% = 1 ， 我 们 来 验证 一 下 ， 对 于 
第 ! 个 输出 节点 ， 有 : 


黎 厂 


dj =sgn( 2 wjipj)=segn( 2 piplpj)=sgn(p))= 吕 
记 问 


因为 户 和 必 值 均 取 二 值 [-1, 1}， 所 以 当 其 为 正 值 时 ， 即 为 1 ; 其 值 为 负 值 时 ， 即 为 -1 。 
同 符号 值 相 乘 时 ， 输 出 必 为 1 。 而 且 由 sgn( 叶 ) 可 以 看 出 ， 不 一 定 需要 sgn( 站) 的 值 ， 只 要 
符号 函 教 sgn( . ) 中 的 变量 符号 与 以 的 符号 相同 ， 即 能 保证 sgn( . ) = 局 。 这 个 符号 相同 
的 范围 就 是 一 个 稳定 域 . 

当 丰 = 1 时 ， 海 布 规则 能 够 保证 dj = 趴 成立， 使 网 络 收敛 到 自己 。 现 在 的 问题 是 : 对 
于 同一 权 矢 量 W ， 网 络 不 仅 要 能 够 使 一 组 输入 状态 收敛 到 其 稳 态 值 ， 而 且 是 要 能 够 同时 记 
忆 住 多 个 稳 态 值 ， 即 同一 个 网 络 权 矢 量 必须 能 够 记忆 住 多 组 输入 样本 ， 使 其 同时 收敛 到 不 
同 对 应 的 焰 态 值 。 所 以 ， 根 据 海 布 规则 的 权 值 设 计 方 法 ， 当 上 由 1 增加 到 2 ， 直 至 9 时 ， 
则 是 在 原 有 已 设计 出 的 权 值 的 基础 上 ， 增 加 一 个 新 量 上 zt ， 大 = 2, …, 9， 所 以 对 网 络 所 有 
输入 样本 记忆 权 值 的 设计 公式 为 : 


2 
Wi = 己 寻 (5.3) 


式 中 矢量 了 为 记忆 样本 ， 了 = 己 . 上 上 式 称 为 推广 的 学 习 凋 节 规则 当 系 数 x = 工时 ， 称 
(5.3) 式 为 了 的 外 积 和 公式 . 





DHNN 的 设计 目的 是 使 任意 输入 矢量 经 过 网 络 循环 最 终 收 敛 到 网 络 所 记忆 的 某 个 样本 


因为 霍 普 菲 尔 德 网 络 有 wi = w 关 ， 所 以 完整 的 霍 普 菲 尔 德 网 络 权 值 设计 公式 应 当 为 : 


刀 
Wi 一 O 乙 帮 (5.4) 
天 
用 向 量 形式 表示 为 : 
友 =a& TOOT 7] (5.5) 
天 
当 c= 1 时 有 : 
W= 史 TA4(T4)T7 - 97 (5.6) 
大 = 


其 中 ，7 为 单位 对 角 和 矩阵 . 
由 (5.5) 和 (5.6) 式 所 形成 的 网 络 权 值 矩阵 为 零 对 角 阵 。 
采用 海 布 学 习 规则 来 设计 记忆 权 值 ， 是 因为 设计 简单 ， 并 可 以 满足 wi = w 六 的 对 称 条 


件 。 从 而 可 以 保证 网 络 在 异步 工作 时 收敛 . 在 同步 工作 时 ， 网 络 或 收敛 或 出 现 极限 环 为 2 . 
在 设计 网 络 权 值 时 ， 与 前 向 网 络 不 同 的 是 令 初始 权 值 wj =0， 每 当 一 个 样本 出 现时 ， 都 在 


原 权 值 上 加 上 一 个 修正 量 ， 即 wj = wj + 丰 疆 ， 对 于 第 个 样本 ， 当 第 让 个 神经 元 输出 与 
第 / 个 神经 元 输入 同时 兴奋 或 同时 抑制 时 ， 上 # 纺 >0; 当 帮 弦 中 一 个 兴奋 一 个 抑制 时 ， 
才 比 <0 。 这 就 和 海 布 提出 的 生物 神经 细胞 之 间 的 作用 规律 相同 。 


在 神经 网 络 工具 箱 中 有 关 采 用 海 布 公式 求解 网 络 权 和 矩阵 变化 的 函数 为 learnh.m 和 


learnhd.m， 后 者 为 带 有 衰减 学 习 速 率 的 郴 数 : 


或 


dW = leamh (P, A, 1D; 
dW = learnhd (W, P, A, lr, dD; 
对 于 简单 的 情况 ，I 可 以 选择 1! ， 对 于 复杂 的 应 用 ， 可 取 =0.1~0.5,dr=l3 。 
下 面 给 出 DHNN 在 联想 记忆 上 的 应 用 例子 . 
【 例 5.1 】 模 式 的 记忆 与 联想 . 

用 海 布 学 习 法 则 对 下 列 模式 学 习 记 忆 问 题 设计 DHNN 网 络 ， 并 考察 其 联想 性 能 . 
1 -1 1 
1 -1 - | 


-1] 1 1 


尼 = 了 = 





解 : 
由 题 意 可 得 记忆 矢量 为 : 


T=[T! 7” 73]= 





1 -1 1 
1 -1 1 
-1 1 1 
根据 海 布 学 习 法 则 的 外 积 和 DHNNN 权 值 设计 公式 : 


三 汉人 二 





3 
本 = ZIT4047 -站 
天 =1 


-TITIT +T2727 +3737 - 31 
0 1 - 
-1 -3 0 
验证 : 


将 目标 矢量 作为 输入 矢量 带 人 网 络 中 可 得 : 
41 = sgn(WPI)=T! 
42 = sgn(WP2)=T? 
-1 


-agoo-|- =s72 72 
1 





由 此 可 见 ， 采 用 海 布 学 习 规则 设计 出 的 离散 型 直 普 菲尔德 记忆 网 络 ， 并 没有 准确 的 记 
忆 所 有 期 望 的 模式 。 这 个 情况 是 如 何 发 生 的 呢 ? 


5.3.4 ”影响 记忆 容量 的 因素 


设计 DHNN 网 络 的 目的 , 是 希望 通过 所 设计 的 权 值 矩 阵 克 储存 多 个 期 望 模式 .从 海 布 
学 习 公式 的 推导 过 程 中 可 以 看 出 : 当 网 络 只 记忆 一 个 稳定 模式 时 ， 该 模式 肯定 被 网 络 准确 
无 误 地 记忆 住 ， 即 所 设计 的 丈 值 一 定 能 够 满足 正比 于 输入 和 输出 矢量 的 乘积 关系 。 但 当 需 
要 记忆 的 模式 增多 时 ， 情 况 则 发 生 了 变化 ， 主 要 表现 在 下 面 两 点 上 : 

( 工 ) 权 值 移动 

在 网 络 的 学 习 过 程 中 , 网 络 对 记忆 样本 输入 T1,T? ,…,T4 的 权 值 学 习 记忆 实际 上 是 逐 
个 实现 的 。 即 对 权 值 凡 ， 有 程序 : 

泵 =0 

for KK=19 

太 = 了 到 +T4T 妈 - 7 
end 

由 此 过 程 可 知 : 当 上 = 1 时 ， 有 

Wi = 人 站 关 胡 


六 六 
1 1 1 11 1 
Qi 一 Sgn(Z Wit7) 三 SSn(Z 在 让 ) 三友 
Jj=1 7j=1 


此 时 ， 网 络 准确 的 记 住 了 样本 T1， 当 上 = 2 时， 为 了 记忆 样本 到 ， 需 要 在 记忆 了 样本 
丈 的 权 值 上 加 上 对 样本 到 的 记忆 项 T2T2 - 工 。 将 权 值 在 原来 值 的 基础 上 产生 了 移动 .在 
此 情况 下 ， 所 求 出 的 新 的 克 为 : wy = 妇 中 十 地 二 ， 对 于 样本 丈 来 说 ， 网 络 的 输出 为 ; 
af = sgn(Z mbt)= sgn[ 弛 二 22 )] 
j=1 /=1 


此 输出 有 可 能 不 再 对 所 有 的 8 个 输出 均 满 足 加 权 输 入 和 与 输出 符号 一 致 的 条 件 。 网 络 





有 可 能 部 分 地 遗忘 了 以 前 已 记忆 住 的 模式 . 

另 一 方面 ， 由 于 在 学 习 样本 玫 时 ， 权 矩阵 克 是 在 已 学 习 了 妹 的 基础 上 进行 修正 的 。 
此 时 ， 因 丈 起 始 值 不 再 为 零 ， 所 以 由 此 调整 得 出 的 新 的 克 值 ， 对 记忆 样本 刀 来 说 ， 也 未 
必 对 所 有 的 * 个 输出 同时 满足 符号 函数 的 条 件 ， 即 难以 保证 网 络 对 素 的 精确 的 记忆 。 

随 着 学 习 样本 数 丰 的 增加 ， 权 值 移动 现象 将 进一步 发 生 ， 当 学 习 了 第 4 个 样本 7? 后 ， 
权 值 又 在 前 4-1 个 样本 修正 的 基础 上 产生 了 移动 ， 这 也 是 网 络 在 精确 的 学 习 了 第 一 个 样本 
后 的 第 4-1 次 移动 . 不 难 想象 ， 此 时 的 权 和 矩阵 克 对 于 书 来 说 ， 使 每 个 输出 继续 能 够 同时 满 
足 符号 条 件 的 可 能 性 有 多 大 ? 同样 ， 对 于 其 他 模式 天， 大 =2, …, 9-1 ， 也 存在 着 同样 的 问 
题 ， 很 有 可 能 出 现 的 问题 是 : 网 络 部 分 甚至 全 部 地 遗忘 了 先前 已 学 习 过 的 样本 。 即 使 对 于 
刚刚 进 人 网络 的 样本 1 ， 由 于 前 4-1 个 样本 所 形成 的 记忆 权 值 难以 预先 保证 其 可 靠 性 ， 因 
而 也 无 法 保证 修正 后 所 得 到 的 最 终 权 值 矩 阵 克 满足 其 符号 条 件 。 这 也 就 无 法 保证 网 络 能 够 
记忆 住 该 样本 7? 

从 动力 学 的 角度 来 看 ， 上 值 较 小 时 ， 网 络 的 海 布 学 习 法 则 ， 可 以 使 输入 学 习 样 本 成 为 
其 吸引 子 . 随 着 人 值 的 增 大 ， 不 但 难以 使 后 来 的 样本 成 为 网 络 的 吸引 子 ， 而 且 有 可 能 使 已 
记忆 住 的 吸引 子 的 吸引 域 变 小 ， 使 原来 处 于 吸引 子 位 置 上 的 样本 从 吸引 子 的 位 置 发 生 移 
动 。 对 已 记忆 的 样本 发 生 遗 忘 ， 这 种 现象 成 为 “疲劳 ”。 

(2) 交叉 干扰 

设 网 络 的 权 和 矩阵 已 经 设计 完成 ， 网 络 的 输入 矢量 为 P ， 并 希望 其 成 为 网 络 的 稳定 矢量 

T = 已 ， 按 同步 更 新 规则 ， 状 态 演变 方程 为 : 
4=P=sgn(V)=s8n( 太 记 ) 
实际 上 ， 上 式 就 是 忆 成 为 稳定 矢量 的 条 件 ， 式 中 N 为 神经 网 络 的 加 权 输 入 和 矢量 ， 


设 输入 矢量 尸 维 数 为 > x 9 取 w = ， 因为 对 于 DHNN 有 P6e {-1 1j, =1 ，2,…, 9， 
所 以 有 政 .只 = 及 pf =1。 当 网 络 某 个 矢量 已，16 [1,，9]， 作 为 网 络 的 输入 矢量 时 ， 可 得 
网 络 的 加 权 输入 和 风 为 : 


1f = 了 Wi 
Jj=1 
7 
沽 (3.7) 
和 2 Z PP 忆 


六 1 大 =1 
了 


1 ” 
= 一 乙 |Pf 生 帮 已 
人 7 


= 凡 二 王 下 r 下 
区 
上 式 右边 中 第 一 项 为 期 望 记忆 的 样本 ， 而 第 二 项 则 是 当 网 络 学 习 多 个 样本 时 ， 在 回忆 
阶段 即 验证 该 记忆 样本 时 ， 所 产生 的 相互 干扰 ， 称 为 交叉 干扰 项 。 由 sgn 函数 的 符号 性 质 
可 知 ，(3.7) 式 中 第 一 项 可 使 网 络 产生 正确 的 输出 ， 而 第 二 项 可 能 对 第 一 项 造成 扰动 ， 网 络 


二 :83 





对 于 所 学 习 过 的 某 个 样本 能 否 正 确 的 回忆 ， 完 全 取决 于 (5.7) 式 中 第 一 项 与 第 二 项 的 符号 关 


系 及 数值 大 小 。 
人 令 
三 PP (5.8) 
六 /=1 上 =1 
了 天 产 了 
1 ) C! >0: 
此 时 ， 交 叉 干 扰 项 与 吕 符号 一 致 ， 因 此 ， 能 够 在 网 络 的 输出 端 得 到 正确 的 结果 ， 即 有 
刘 二 关 
2 ) Cs -1: 


此 时 ,交叉 干扰 项 与 以 符号 相反 ， 对 正确 记忆 出 玉 造 成 不 利 影 响 ， 但 因为 干扰 幅度 较 
小 ， 而 不 至 于 使 状态 允 的 符号 翻转 ， 因 而 输出 仍然 正确 ， 可 得 到 al| = 局; 

3 ) -1<C! <0: 

此 时 ， 交 叉 干扰 项 与 p! 不 仅 符号 相反 ， 而 且 其 值 栖 度 大 于 正确 的 输出 信号 值 收 ， 从 而 
造成 状态 允 的 符号 翻转 ， 导 致 网 络 的 第 ;个 神经 元 输出 错误 的 信息 : al! = -局 . 


5.3.5 ”网 络 的 记忆 容量 确定 


从 对 网 络 的 记忆 容量 产生 影响 的 权 值 移动 和 交叉 干扰 上 看 ， 采 用 海 布 学 习 法 则 对 网 络 
记忆 样本 的 数量 是 有 限制 的 ， 通 过 上 面 的 分 析 已 经 很 清楚 地 得 知 ， 当 交叉 干扰 项 幅 值 大 于 
正确 记忆 值 时 ， 将 产生 错误 输出 ， 那 么 ， 在 什么 情况 下 ， 能 够 保证 记忆 住所 有 样本 ? 答案 
是 有 的 。 当 所 期 望 记 忆 的 样本 是 两 两 正 交 时 ， 能 够 准确 得 到 一 个 可 记忆 数量 的 上 限 值 

在 神经 元 为 二 值 输出 的 情况 下 ， 即 己 《 {-L1}， 当 两 个 r 维 样本 矢量 的 各 个 分 量 中 ， 
有 亏 是 相同 的 1 , 有 于是 相反 的 -1 , 对 于 任意 一 个 数 凡 ， 1e 贡 站, 有 PLPO7 =0，Lzk; 而 
有 已 (P' ) =1, 1 = 的 正 交 特 性 .下 面 用 外 积 和 公式 所 得 到 的 权 答 阵 进行 和 代 计算 ， 在 输 
人 样本 忆 , 导 12 …4 中 任 取 一 个 已 作为 初始 输入 ， 求 网 络 的 加 权 输 入 和 Ni : 





Pir 3] 
已 27 
Ni =WP: =[PiP:...P..P]| : | Pi -qP， 

P 
Pur 二 

0 

0 

=fPP:...P.P] | 





= PLPTPL-IP! 

=(-I)P 
由 上 式 结果 可 知 ， 只 要 满足 r> g ， 则 有 sgn(N1) = 已 ， 保 证 己 : 为 网 络 的 稳定 解 。 
但 对 于 一 般 的 非 正 交 的 记忆 样本 ， 从 前 面 的 交叉 干扰 的 分 析 过 程 中 已 经 得 知 ， 网 络 不 

能 保证 收敛 到 所 希望 的 记忆 样本 上 。 

【 例 5.2 】〗】 采 用 外 积 和 记忆 公式 设计 DHNN 的 权 值 ， 希望 记忆 的 样本 为 

1 1 -1 

1 -1 1 

7T=|1l1 -1 -1j=ITL 72? 73] 


解 : 
由 外 积 和 权 值 设计 公式 ， 可 得 权 和 抢 阵 为 : 
克 = T4T 杂 - 37 
大 = 


经 验证 所 设计 的 网 络 能 够 准确 的 回忆 出 记忆 的 全 部 三 个 模式 。 实 际 上 ， 该 网 络 可 能 的 
输入 状态 有 27 = 22 = 32 种 ， 分 析 一 下 其 稳定 点 的 情况 可 得 ， 系 统 共有 四 个 稳定 点 ， 分 别 
为 : 


=[T1! 克 ? T73 T4] 


1-1-11 

四 个 稳定 点 都 是 渐 近 稳定 点 ， 其 中 7 ,7“ 和 7- 为 要 求 的 稳定 点 ， 即 网 络 的 解 。 而 T” 
为 伪 稳 定点 有 一 = -7 。 在 用 串 行 方式 工作 的 情况 下 ， 在 32 种 输入 状态 中 ， 有 8 个 初始 态 
收敛 到 7 ，9 个 初始 态 收敛 到 T” ， 5 个 初始 态 收 敛 到 7” ， 10 个 初始 态 收 剑 到 7” .在 用 
并 行 方式 工作 的 情况 下 ， 有 10 个 初始 态 收 剑 到 7 ， 1 个 初始 态 收 敛 到 7 ， 2 个 初始 态 收 
敛 到 7”， 工 个 初始 态 收 敛 到 7 ， 而 有 18 个 初始 态 均 陷 人 到 极限 环 ， 其 收敛 域 明 显 减 少 。 

DHNN 用 于 联想 记忆 有 两 个 突出 的 特点 : 即 记忆 是 分 布 式 的 ， 而 联想 是 动态 的 。 这 与 
人 脑 的 联想 记忆 实现 机 理 相 类 似 。 利 用 网 络 稳定 的 平衡 点 来 存储 记忆 样本 ， 按 照 反馈 动力 
学 运动 规律 唤起 记忆 ， 显 示 了 DHNN 联想 记忆 实现 方法 的 重要 价值 。 然 而 ， DHNN 也 存 
在 有 其 局 限 性 ， 主 要 表现 在 以 下 几 点 : @ 记 忆 容 量 的 有 限 性 ; @ 伪 稳定 点 的 联想 与 记忆 ; 
田 当 记忆 样本 较 接 近 时 ， 网 络 不 能 始终 回忆 出 正确 的 记忆 等 。 
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另外 网 络 的 平衡 稳定 点 并 不 可 以 任意 设置 的 。 也 没有 一 个 通用 的 方式 来 事先 知道 平衡 
稳定 点 。 换 名 话说， 并 没有 一 个 简便 的 方法 来 求 网 络 的 平衡 稳定 点 。 只 有 靠 用 一 个 一 个 样 
本 去 测试 寻找 。 所 以 真正 想 利用 好 霍 普 菲尔德 网 络 并 不 是 一 件 容易 的 事情 。 


5.3.6”DHNN 权 值 设计 的 其 他 方法 


用 海 布 规则 设计 出 的 DHNN 权 值 能 够 保证 其 网 络 在 异步 工作 时 稳定 收敛 , 尤其 在 记忆 
样本 是 正 交 的 条 件 下 ， 可 以 保证 每 个 记忆 样本 收敛 到 自己 ， 并 有 一 定 范围 的 吸引 域 ， 但 对 
于 那些 不 是 正 交 的 记忆 样本 ， 用 此 规则 设计 出 的 网 络 则 不 一 定 能 收敛 到 本 身 。 

这 里 介绍 几 种 其 他 的 权 值 设计 方法 以 对 此 不 足 加 以 改进 ， 它 们 都 各 有 自己 的 特点 。 

(1) @ 学 习 规则 

6 学 习 规 则 基本 公式 为 : 

A 灵 =mT :5.P， 
WE+JD=Wi(DD+TITGOOD- 4(DO]PCtD) 

即 通过 计算 每 个 神经 元 节点 的 实际 激活 值 4(0, 与 期 望 状态 TCD 进行 比较 ， 若 不 满足 要 
求 ， 则 将 二 者 的 误 羡 的 一 部 分 作为 调整 量 ， 若 满足 要 求 ， 则 相应 的 权 值 保持 不 变 。 

(2) 久 遂 法 

对 于 输入 样本 P=[P! ” 疡 ”…，” 忆 ], 设 网 络 输 出 可 以 写成 一 个 与 输入 样本 相对 应 的 矩 
阵 4 ， 输 入 和 输出 之 间 可 用 一 个 权 和 矩阵 太 来 映射 ， 即 有 : W*P = N,4 = sgn (NM )， 由 此 可 得 : 

W=NY*Pr+ (5.9) 

其 中 P# 为 已 的 伪 送 ， 有 P*=(P7P)P7 ,如果 样本 之 间 是 线性 无 关 的 ， 则 忆 忆 满 秩 ， 其 
逆 存 在 ， 则 可 求 出 (5.9) 式 求 权 和 矩阵 克 来 . 

用 伪 逆 法 求 出 的 权 和 矩阵 色 ， 可 以 保证 对 所 记忆 的 模式 ， 在 输入 时 仍 能 够 正确 收敛 到 样 
本 自己 , 在 选择 4 值 时 ,只 要 满足 4 和 矩阵 中 的 每 一 个 元 素 与 W*P 矩阵 中 的 每 个 元 素 有 相同 
的 符号 ,甚至 可 以 简单 地 选择 4 与 忆 具 有 相同 符号 的 值 ， 即 可 满足 收敛 到 学 习 样 本 的 本 身 。 
但 当 记忆 样本 之 间 是 线性 相关 的 ， 如 【 例 5.1 】 中 有 72 =-T1， 以 及 对 【 例 5.2 】 中 有 
74 = -7 ， 对 于 这 些 情况 ， 由 海 布 法 所 设计 出 网 络 存在 的 问题 ， 伪 逆 法 也 解决 不 了 ， 甚 至 
无 法 求解 ， 相 比 之 下 ， 由 于 存在 求 逆 等 运算 ， 伪 逆 法 较为 繁琐 ， 而 海 布 法 则 要 容易 求 得 多 。 

【 例 5.3 〗】 采 用 伪 逆 法 解 【 例 5.2 〗。 其 期 望 矢 量 为 : 


1 1 -1 
1 -1 | 
T=|1l1 -1 -1|=[T 7 73] 
1 1 -1 
1 -1 -1 
解 : 
取 与 输入 矢量 相同 符号 的 元 素 作 为 4 的 值 : 





-05 05 -041 
0.5 -01 0.5 
4= | 05 -01 0.5 
0 05 -04! 
01 -05 -0.5 
则 ; 
Www=A4r*Pxr=4(PTP)LP7 
0.25 01 01 025 -02 
0.1 0.2$ 0.2$3 0.1 -0.2 
= 01 0.25 0.25 01 -0.2 
0.23 01 01 0253 - 02 
-041 -01 -0 -041 0.5. 


此 匈 可 以 保证 输入 对 ， 到 和 丈 收 敛 到 自己 。 
(3) 正 交 化 的 权 值 设计 

这 一 方法 的 基本 思想 和 出 发 点 是 为 了 满足 下 面 四 个 要 求 : 

1) 保证 系统 在 异步 工作 时 的 稳定 性 , 即 它 的 权 值 是 对 称 的 , 满足 wj=wi, 产 /= 1 2 3 

2) 保证 所 有 要 求 记 忆 的 稳定 平衡 点 都 能 收敛 到 自己 ; 

3) 使 伪 稳 定点 的 数目 尽 可 能 的 少 ; 

4) 使 稳定 点 的 吸引 域 尽 可 能 的 大 。 

正 交 化 权 值 计 算 公 式 推导 如 下 : 

a) 已 知 有 9 个 需要 存储 的 稳定 平衡 点 L, 刀 ， ,79 7 6 恬 ， 计算 8 x(qg-1) 阶 和 矩阵 
7R xx(9-D. 





7=[7-79 开 -m 7 
b) 对 了 进行 奇异 值 及 酋 矩 阵 分解 ， 如 存在 两 个 正 交 和 抢 阵 已 和 Y 以 及 一 个 对 角 值 为 了 的 
奇异 值 的 对 角 矩 阵 4 ， 满 足 : 
7= UVAY 
了 =[ 丈 好 727 下 


U= [co 避 到 


V -ly2.y91 
和 1 0 


4=| : 和 


0 0 
大 维 空间 为 8 维 空间 的 子 空 间 ， 它 由 上 个 独立 基 组 织 : 
上 = rank (J) 


设 记 也 2 7 甘 为 了 的 正 交 基 , 而 亿 针 1 入.U3} 为 ? 维 空间 中 的 补充 正 交 基 ， 下 





面 利用 尽 瑟 阵 来 设计 权 值 . 


c) 定 义 : 
克 了 
玉 + = ZUIODT， 刺 = TIDO7 
j=1 j=k+1l 
总 的 联接 权 值 为 : 
玩 = 玖 + - 7 故 - 
其 中 Y 为 大 于 -1 的 参数 ， 
d) 网 络 的 交 值 定义 为 : 
BL =74 - 内 T4 


由 此 可 见 ， 网 络 的 权 和 矩阵 是 由 两 部 分 的 权 和 矩阵 丈 ” 和 琵 ” 相 加 而 成 的 ,每 一 部 分 权 所 采 


用 的 都 是 类 似 于 外 积 和 法 得 到 的 ， 只 是 用 的 不 是 原始 要 求 记忆 的 样本 ， 而 是 分 解 后 正 交 矩 
阵 的 分 量 。 这 两 部 分 权 矩 阵 均 满足 对 称 条 件 ， 即 有 下 式 成 立 : 


即 : 


举人 -= 
呵 =Y 记 = 


因而 wz 中 分 量 也 满足 对 称 条 件 . 这 就 保证 了 系统 在 异步 时 能 够 收敛 并 且 不 会 出 现 极限 


下 面 我 们 来 推导 记忆 样本 能 够 收敛 到 自己 的 有 效 性 。 
@ 对 于 输入 样本 中 的 任意 目标 矢量 刀 ，; = 1 2, ,9 ， 因 为 (五 - 79 ) 是 了 中 的 一 个 矢 


， 它 属于 4 的 秩 所 定义 的 上 个 基 空 间 中 的 矢量 ， 所 以 必 存 在 一 些 系数 alo2,…,ok 使 


7 -7T49=QlL+Q2072+...+OQKL 


T = ol1UL+Qo2072+...HOKL 大 二 T9 
对 于 过 中 任意 一 个 凡 ， 有 : 
所 太 = 卫 太 -T 友 -= 辽 : 
对 于 样本 输入 7 ， 其 网 络 输出 为 : 
4 =sgn(WiT +Bt) 
=sgn(W* Ti- TW IT +T4 -到 ?74+T 了 - 7?) 
=sen|w*O - T92)- TO - 74)+7?] 
=sgn|(7: - T4 )+7?|] 
= 开 
Q@ 当 选择 第 9 个 样本 玫 作 为 输入 时 ， 有 : 
4 =sen(riT? + Br ) 
=sgn(WiT9 +74 - WT?] 
=sgn(7?) 
= 了 9 


” 国 如 果 输 入 一 个 不 是 记忆 样本 的 忆 ， 则 网 络 输出 为 : 








4=sgn(WP+B， )=sm|(w” - 厂 - JP-T?j+ 7?] 


因为 忆 不 是 已 学 习 过 的 记忆 样本 ， 已 - 7 不 是 了 中 的 矢量 ， 则 必然 有 W ,=(P-7" ) 
P_T9 ， 并 且 在 设计 过 程 中 可 以 通过 调节 内 = W+ - rW- 中 的 参数 r 的 大 小 ， 来 控制 ( 忆 - 
1r ) 与 的 符号 ， 以 保证 输入 矢量 忆 与 记忆 样本 之 间 存 在 足够 的 大 小 余额 ， 从 而 使 
sgn(W:P+B)= 已 。 使 己 不 能 收敛 到 自身 ， 

利用 参数 + 的 调节 可 以 改变 伪 稳 定点 的 数目 . 在 捉 行 工作 的 情况 下 , 伪 稳 定点 数目 的 减 
少 就 意味 着 每 个 期 望 稳定 点 的 稳定 域 的 扩大 。 对 于 任意 一 个 不 在 记忆 中 的 样本 已 ， 总 可 以 
设计 一 个 { 把 尸 排除 在 外 . 

表 5.1 给 出 的 是 一 个 r= 10， 学 习 记忆 5 个 稳定 样本 的 系统 , 采用 上 面 的 方法 进行 权 的 
设计 , 以 及 在 不 同 的 * 时 的 稳定 点 数目 . 同时 给 出 了 正 交 化 设计 方法 与 外 积 和 网 络 权 值 设计 


法 的 比较 。 
表 5.1 不 同 的 * 时 的 稳定 点 数目 


| | tr tr=10| 4 和 和 AS 式 朗 计 
错误 稳定 点 数 

虽然 正 交 化 设计 方法 的 数学 设计 较为 复杂 ， 但 与 外 积 和 法 相 比较 ， 所 设计 出 的 平衡 稳 
定点 能 够 保证 收敛 到 自己 并 且 有 较 大 的 稳定 域 .更 主要 的 是 在 MATLAB 工具 箱 中 已 将 此 设 
计 方 法 写 进 函 数 solvehop.m 中 : 

[ W,b ] = solvehop(T); 

用 目标 矢量 给 出 一 组 目标 平衡 点 ， 由 函数 solvehop.m 可 以 设计 出 对 应 反馈 网 络 的 权 值 
和 偏差 ， 保 证 网 络 对 给 定 的 目标 矢量 的 输入 能 收敛 到 稳定 的 平衡 点 。 但 网 络 可 能 也 包括 其 
他 伪 平 衡 点 ， 这 些 不 希望 点 的 数目 通过 选择 * 值 ( 缺 省 值 为 10 ) 已 经 做 了 尽 可 能 的 限制 

一 旦 设计 好 网 络 ， 可 以 用 一 个 或 多 个 输入 矢量 对 其 进行 测试 。 这 些 输入 将 趋 近 目标 平 
衡 点 ， 最 终 找 到 它们 的 目标 矢量 。 下 面 给 出 用 正 交 化 方法 设计 权 值 的 例子 . 

【 例 5.4 】 考 虑 一 个 具有 两 个 神经 元 的 霍 普 菲 尔 德 网 络 ， 每 个 神经 元 具有 两 个 权 值 和 

一 个 偏差 。 









A=satlin(W*P, B); 
医 5.7” 正 交 化 方法 设计 的 雹 普 菲 尔 德 网 络 结构 图 


网 络 所 要 存储 的 目标 平衡 点 为 一 个 列 矢 量 了: 
T=fT1-31 
-1 1 ]; 
7 将 被 用 在 设计 函数 solvehop.m 中 以 求 出 网 络 的 权 值 : 
[ W,b]= solvehop(T); 





solvehop.m 函数 返回 网 络 的 权 值 与 偏差 为 : 
W = [0.6925 -0.4694; 
-0.4694 0.6925 ] 
b = 1.0 e-16 * [0.6900; 0.6900] 


可 以 看 出 其 权 值 是 对 称 的 . 


下 面 用 目标 矢量 作为 网 络 输入 来 测试 其 是 否 已 被 存储 到 网 络 中 了 。 取 输入 为 : 


Ptest=[1-1;-11]， % 输入 矢量 
用 来 进行 测试 的 函数 为 simhop.m ; 
A= simhop(Ptest W,B, 3); 多 计算 其 网 络 循环 结束 后 的 输出 


函数 右 端 中 的 第 四 个 参数 3 表示 网 络 反复 循 环 的 次 数 。 经 过 3 次 的 运行 ， 如 同 所 希望 
的 那样 ， 网 络 的 结果 为 目标 矢量 7 . 

现在 我 们 想 知道 所 设计 的 网 络 对 任意 输入 矢量 的 收敛 结果 。 我 们 首先 给 出 六 组 给 入 矢 
量 为 : 


P= [0.5$621 0.3577 0.8694 0.0388 -0.9309 0.0594; 
-0.905$9 ”0.3586 -0.2330 0.6619 ”0.8931 0.3423 ]; 


在 经 过 25 次 循环 运行 后 ， 得 到 输出 为 : 


A= [1.0000 -0.0191 1.0000 -1.0000 -0.8036 -1.0000; 
-1.0000 0.0191 -1.0000 “1.0000 0.8036 “1.0000 ]; 


如 同 所 看 到 的 第 2 组 及 第 5 组 的 输入 矢量 没有 能 够 收敛 到 目标 平衡 点 上 。 然 而 ， 如 果 
让 其 运行 60 次 ， 它 们 则 能 够 收敛 到 第 2 个 目标 矢量 上 。 

另外 ， 当 取 其 他 随机 初始 值 时 ,在 25 次 循环 后 均 能 够 收敛 到 所 设计 的 平衡 点 上 . 一 般 
情况 下 ， 此 网 络 对 任意 初始 随机 值 ， 在 运行 60 次 左右 均 能 够 收敛 到 网 络 所 储存 的 某 个 平衡 
点 上 ， 

【 例 5.5 〗】 观 察 不 稳定 平衡 点 的 位 置 。 

同样 采用 例 5.4 芽 的 网 络 ， 使 网 络 存储 的 平衡 点 为 : 

7=[1-l;-11]; 

由 【 例 5.4 】 已 知 ， 当 我 们 用 任意 随机 输入 矢量 去 对 网 络 进行 测试 时 ， 在 60 次 循环 以 
内 均 能 够 使 其 收敛 到 所 设计 的 平衡 点 上 ， 如 图 5.8 所 示 。 图 中 任意 随机 输入 矢量 “+ 最终 
都 收敛 到 网 络 的 稳定 平衡 点 了 “*” 上 。 
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-1 -0.5 0 0.5 ] 


图 5.8 网 络 任意 输入 矢量 的 收敛 过 程 


然而 这 些 并 不 能 保证 网 络 没有 其 他 平衡 点 了 ， 让 我 们 来 尝试 一 下 .例如 ， 取 所 给 目标 

矢量 连 线 的 垂直 平分 线 上 的 点 作为 输入 矢量 : 
P=[-1-05 0 0.53 1.0; 
-1-03 0 0.5 1.0]; 

首先 采用 与 【 例 5.4 】 相 同 的 步 又 设计 出 网 络 。 然 后 将 上 述 已 作为 网 络 输入 ， 采 用 下 
面 的 循环 程序 来 观察 每 一 次 循环 后 网 络 的 输出 值 : 
fork = 1:4 
disp(Hit<RETURN> to see the output after one cycle.); 
pause, disp(…) 
A= Sinmnhop(P,W,B,K); 
fprintft(Output Vectors: )， 
人 
end 


0.3 


22 0 


-1 -0.5 0 0.5 1 
21 


图 5.9 不 稳定 平衡 点 的 收敛 走向 





通过 循环 可 以 看 到 所 有 的 输出 最 终 趋 于 原点 。 它 是 一 个 不 稳定 的 平衡 点 ， 因 为 任何 一 
个 不 在 以 (-1 -1 ) 到 (1, 1 ) 点 所 连 成 的 直线 上 的 点 作为 网 络 的 初始 输入 矢量 , 经 过 循环 都 将 
最 终 收 敛 到 所 设计 的 稳定 平衡 点 上 。 网 络 输出 平面 上 的 点 的 收敛 走向 如 图 5.9 所 示 。 
【 例 5.6 】 设 计 一 个 三 元 的 替 普 菲尔德 网 络 ， 使 网 络 存 储 的 目标 平衡 点 为 : 
TI=[fl 1; 
-1 1; 
-1 -]H]; 
同样 只 要 采用 函数 solvehop.m 即 可 求 出 所 要 设计 网 络 的 权 值 为 : 


W=[0.2231 0 0 ; 

0 11618 0; 

0 0 02231 ]; 
3= [0.8546; 0; -0.8546 ]; 


通过 使 目标 矢量 作为 输入 矢量 , 用 函数 simhop.m 运行 网 络 , 可 以 看 到 网 络 确实 能 够 使 
其 收敛 到 自己 本 身 。 同 样 的 问题 是 ， 网 络 是 否 还 有 其 他 的 平衡 点 : 可 以 通过 取 任 意 初始 值 
的 方式 对 其 进行 测试 。 取 循环 次 数 为 50 ， 其 结果 是 : 一 般 情 况 下 总 能 够 收敛 到 某 个 目标 矢 
量 上 ， 如 图 $.10 所 示 。 





图 5.10 ”三维 空 间 的 输出 及 其 状态 收敛 趋势 


然后 ， 再 尝试 用 两 目标 矢量 点 连 线 的 平分 面 上 的 点 作为 初始 矢量 ， 如 : 
P=[1 -1 -05 1 1 0 
00 0 0 001 2-02; 
-1 1 05 -l01 -1 0] 
网 络 经 过 5 次 循环 后 得 输出 为 : 
[11 11 1 1 





0 0 0 0 0.0212 -0.4234; 
-1 -1L -1 -1 -1 -1 ]; 
前 四 个 矢量 全 都 收敛 到 不 稳定 的 平衡 点 (10 -1 ) 上 . 然而 ， 既 使 第 五 和 第 六 个 矢量 起 始 
于 非常 接近 于 不 稳定 的 平衡 点 ， 它 们 仍然 能 够 以 自己 的 方式 逐步 趋 于 所 设计 的 平衡 点 。 由 
此 可 见 ， 非 常 简单 的 例子 也 存在 不 稳定 的 平衡 点 。 
直 普 菲尔德 网 络 三 维 空间 的 输出 及 其 状态 收敛 趋势 如 图 5.11 所 示 。 


0 
(7 





图 5.11 三 维 空间 不 稳定 的 平衡 点 


【 例 5.7 】 伪 稳定 平衡 点 。 
设计 一 个 存储 下 面 4 组 5 神经 元 平衡 点 的 神经 网 络 : 


T=[l1 1 -1 1 
-1] 1 1 -1 


执行 程序 : 


[W,B] = solvehop(T); 


得 网 络 设计 结果 为 : 
W=[0.8489 -00 0.3129 0.0 -0.3129; 
-00 1.1618 0 0 -0.0; 
0.3129 00 0.8489 0 0.3129; 
0 0 0 ”0.223 0; 





-0.3129 -0.0 0.3129 0 0.8489]; 
也 = [0.2849; 0; -0.2849; 0.8546; 0.2849 ]; 


通过 检验 程序 : 
A= Simhop(T,W,B,3)， 


可 得 到 证 实 它 们 确实 能 够 收敛 到 自己 本 身 。 

然后 我 们 向 网 络 输入 随机 初始 矢量 。 结 论 是 ， 偶 尔 有 些 状态 稳定 到 伪 汤 近 稳定 点 上 ， 
如 下 面 所 示 结 果 中 的 第 二 列 和 第 三 列 ， 此 网 络 除了 具有 所 设计 的 稳定 平衡 点 外 ， 还 由 另外 
两 个 伪 稳 定点 : 


S$.4 连续 型 霍 普 菲尔德 网 络 


霍 普 菲 尔 德 网 络 可 以 推广 到 输入 和 输出 都 取 连 续 数值 的 情形 。 这 时 网 络 的 基本 结构 不 
变 ， 状 态 输 出 方程 形式 上 也 相同 。 若 定义 网 络 中 第 工 个 神经 元 的 输入 总 和 为 户 ， 输 出 状态 
为 省 ， 则 网 络 的 状态 转移 方程 可 写 为 : 


ai = 7 wj +Di) 
其 中 神经 元 的 激活 晒 数 /为 S 型 的 枯 数 (或 线性 饱和 本 数 ) : 


1 和 


或 
J2=tanh( 和 (mi + 广 )) 

两 个 函数 共同 的 特点 当 下” 及 天 一- 近 时 ， 函 数值 饱和 于 两 极 ， 从 而 限制 了 神经 网 
络 中 输出 状态 ai 的 增长 范围 .显然 ， 若 使 用 函数 户 ( . )， 则 ai 6 [0,] ， 若 使 用 PP(: )， 则 
aflH。 通 数 月 (. ) 和 2 ) 中 的 参数 入 用 以 控制 S 型 函数 在 0 点 附近 的 变化 数 。 

在 连续 网 络 的 整个 运行 过 程 中 ， 所 有 神经 元 状态 的 改变 具有 三 种 形式 : 异步 更 新 、 同 
步 更 新 和 连续 更 新 。 与 离散 的 网 络 相 比 ， 连 续 更 新 是 一 种 新 的 方式 ， 表 示 网 络 所 有 神经 元 
都 随 连 续 时 间 : 并 行 更 新 。 就 像 用 电子 元 件 实现 的 霍 普 菲尔德 网 络 神经 元 状态 随 电 路 参量 
改变 一 样 。 下面 将 要 讲 到 网 络 模型 及 运行 过 程 ， 可 以 很 清楚 地 理解 这 一 点 。 另 外 ， 离 散 黎 
普 非 尔 德 网 络 中 状态 改变 着 网 络 输出 在 “1 ”与 “-1 ”之 间 翻 转 ， 而 这 里 ， 网 络 状态 是 在 
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一 定 范围 内 的 连续 变化 。 





图 5.12 ”连续 上 普 菲尔德 网 络 激活 函数 


5.4.1 ”对 应 于 电子 电路 的 网 络 结构 


电子 电路 与 CHNN 之 间 存 在 着 直接 的 对 应 关系 . 第 ;个 输出 神经 元 的 模型 如 图 5.13 所 
示 ， 其 中 ， 运 算 放大 器 模拟 神经 元 的 激活 函数 ， 电 压 礁 为 激活 函数 的 输入 ， 也 称 为 网 络 的 
状态 ， 各 并 联 的 电阻 Rr 值 决定 各 神经 元 之 间 的 连接 强度 ; 电容 C 和 电阻 模拟 生物 神经 元 
的 输出 时 间 常 数 ， 另 外 电流 二 模 拟 效 值 。 其 中 ， ;7 = 1 2, …,r 。 整 个 网 络 是 由 了 个 同样 的 
模型 并 联 组 成 ， 每 个 模型 都 具有 相同 的 输入 矢量 Y = [ww>, … 加]， 状 态 矢量 和 目 由 每 个 模 
型 的 输出 六 组 合 而 成 。 电 路 状态 与 输出 之 间 的 关系 图 由 图 5.14 所 示 。 


图 5.14 也 是 放大 器 的 特性 图 ， 
对 于 图 $.13 所 示 的 电路 图 ， 根 据 克 西 夫 夫 电流 定律 ， 有 下 列 方程 成 立 : 
2 0 27) 十 二 


di 六 j=1 有 7 









民 ， 

这 7 
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玉 
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图 5.14 ”网 络 输出 * 与 状态 妇 的 关系 图 





对 上 式 进行 移 项 及 合并 ， 可 得 : 





3 广 三 
人 下 十 丈 二 二 万 
dt 六 yj=l 有 j=1A 人 7 

1 1 
芳 令 一 运 二 全 ， 一 
人 R 站 人 
则 可 得 : 

dxi 1 广 

ER 页 看 十 名 on 二 了 

由 此 可 得 电路 输入 的 累加 值 为 : 
si = 也 WiV7 十 大 ($.10) 
=1 


(5.10) 式 与 人 工 神 经 网 络 模型 的 加 权 值 一 致 。 
电路 状态 值 与 加 权 输 入 值 之 间 的 关系 可 用 一 阶 微分 方程 式 表示 : 


CC 下 十 i (5.11) 
而 电路 输出 与 状态 之 间 的 关系 为 一 个 单调 上 升 的 有 界 函 数 : 
Vi = 三 (x) (3S.12) 


方程 (5.11) 式 反映 了 网 络 状态 连续 更 新 的 意义 ， 它 与 离散 形式 是 不 同 的 。( 5.10 ) ~ 
( 5.12 ) 式 结合 在 一 起 描述 了 CHNN 的 动态 过 程 随 着 时 间 的 流逝 ， 网 络 趋 于 稳定 状态 ， 可 
以 在 输出 端 得 到 稳定 的 输出 矢量 。 对 于 由 相互 连接 的 电路 模型 组 成 的 网 络 ， 每 个 模型 均 满 
足 (5.10 ) ~ (5.12 ) 方程 ， 可 将 其 写成 矩阵 形式 ， 为 了 简便 起 见 ， 令 C= 1 ， 


2 人 0) (0) WIL WII2 .Wir  Vv(b) 矿 
L2(D) _ 工 2 (站 W21 W22 .WwW2r  2( 从 靖 
2 玉 | 二 2 5 机 
&r 阳 ztr (人 和 和 wa) 太 
或 
属 =- 二 0Q+WY+1 (S.13) 


这 是 一 个 r 维 的 线性 微分 方程 。 当 不 (D = 0,i=12,…,r ， 上 式 变 为 : 
U =ROVV+D 
若 把 7=[772A 三 ] 看 作 闪 值 ， 那 么 上 式 就 与 人 工 神经 网 络 的 加 权 输 入 和 N+B 形式 
相似 .如 果 此 时 代表 激活 函数 F(ZD) 的 运算 放大 器 的 放大 倍数 足够 大 到 可 视 为 二 值 型 的 硬 函 
数 ， 连 续 型 反馈 网 络 即 变 为 离散 型 的 反馈 网 络 。 所 以 也 可 以 说 ， DHNN 是 CHNN 的 一 个 
特例 . 





5.4.2 ”CHNN 方程 的 解 及 稳定 性 分 析 


对 于 CHNN 来 说 ， 我 们 关心 的 同样 是 稳定 性 问题 。 由 于 与 实际 电子 电路 有 明确 的 对 应 
关系 ， 所 以 可 以 通过 选择 合适 的 电路 参数 来 设计 出 稳定 的 CHNN 电路 来 ， 以 达到 一 定 的 目 
的 。 在 所 有 影响 电路 系统 稳定 的 所 有 参数 中 ,一 个 比较 特殊 的 参数 值 是 放大 器 的 放大 售 数 . 
从 前 面 的 分 析 中 我 们 已 经 知道 当 放 大 器 的 放大 售 数 足够 大 时 ， 网 络 将 由 连续 型 转化 为 离散 
型 ， 状 态 与 输出 之 间 的 关系 表现 了 激活 函数 的 形状 ， 而 正 是 激活 函数 代表 了 一 个 网 络 的 特 
点 ， 所 以 ， 下 面 我 们 着 重 分 析 不 同 了 = F(UV) 之 间 的 激活 函数 关系 对 系统 的 稳定 性 的 影响 。 

1 ) 当 w = ui=12,r 时 : 

即 输出 六 与 状态 丰 之 间 呈 线性 关系 时 ， 此 时 ， 系 统 的 状态 方程 ,由 ( 5.13 ) 式 可 写成 
标准 形式 : 


局 =A4U+ 有 (5.14) 
其 中 : 4= - 二 + 
此 系统 的 特征 方程 为 : 
14-471=0 
其 中 7 为 单位 对 角 和 矩阵 。 通 过 对 解 出 的 特征 值 和 1, 入 2,…, 入 r 的 不 同情 况 ， 可 以 得 到 以 
下 几 种 系统 解 的 情况 : 


a) 若 1, 入 2,…… 入 r 的 实 部 均 小 于 0 ， 则 系统 稳定 ， 此 时 ， 若 给 定 系 统 初始 值 ， 经 过 运 
行 ， 系 统 的 状态 最 终 能 够 收敛 到 各 自 的 稳定 点 上 。 

b 入 1, 入 2，…… 入 r 中 若 出 现 异 号 同 值 实 根 ( 即 相同 实 根 ) ， 系 统 则 出 现 鞍 点 ， 即 系统 状 
态 随时 间 变 化 的 轨迹 从 某 些 方向 是 向 着 平衡 点 靠近 ， 而 在 另 一 些 方向 上 是 远离 平衡 点 的 ， 
因而 此 时 ， 系 统 不 能 稳定 到 稳定 点 上 ， 如 图 5.15(d)。 

c) 和 1, 和 2, 入 r 中 若 有 零 实 部 ， 且 有 零 虚 部 ， 则 系统 在 其 状态 空间 上 出 现 极限 环 ， 

dg) 入 1, 入 2, 入 r 中 若 有 大 于 零 的 实 部 ， 则 系统 发 散 。 在 二 维 状态 情况 下 ， 不 同 的 特征 
根 对 应 的 状态 轨迹 如 图 5.15(D 和 (g) 所 示 ， 令 平衡 点 为 四 =z2 =0; 

2 ) 对 于 w = Fu ) 为 非 线 性 的 情况 时 ， 此 时 状态 方程 (5.14) 可 写 为 : 


LU=- 到 0+WF(OD)+I= G(U 


为 了 对 此 非 线性 系统 进行 稳定 性 分 析 ， 方 法 之 一 就 是 在 系统 的 平衡 点 附近 对 系统 进行 
线性 化 处 理 。 设 平衡 点 为 [- ， 如 果 G(UV.D 在 L。 附近 连续 可 微 ， 且 存在 多 阶 导数 ， 那 么 状 
态 矢量 中 的 任意 元 素 丰 ,= 12,…r 满足 : 

zi = Si(te )+ z 38 wu- ze )+On，1=12,...r 
J=1Ox1 
若 忽略 高 次 微分 项 O, ， 因 8i(xe)=0， 则 上 式 可 写 为 : 


厂 
好 = 也 oO - Mej)， 工 =12,...， 广 
j=1017 


一 97 一 





种 为 雅 可 比 行列 式 的 一 个 元 。 由 此 将 非 线性 方程 线性 化 后 ， 则 可 用 线性 方法 来 
玉 全 
&F=Mej 


分 析 其 稳定 性 了 . 
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(e) ( G) 
图 5.15 ”线性 反馈 网 络 系统 解 的 情况 


下 面 举 一 个 实际 电路 的 例子 来 分 析 其 稳定 性 。 
【 例 5.8 】 图 5.16 为 由 两 个 运算 放大 器 组 成 的 人 工 神经 网 络 的 互联 网 电路 ， 其 中 ， 
yl1=tanh( Li v=tanh( 太 02) 
分 析 网 络 在 不 同情 况 下 的 稳定 性 。 








解 : 
由 网 络 结构 图 ， 可 得 其 状态 方程 为 : 


dx1 1 21 
C 一 = 一 (2 - )- 一 
0 


当 B 很 小 时 ， 可 近似 为 : 立 =Bu，B 为 放大 器 增益 ， 因 网 络 完全 相同 ， 有 
Bl =B2 =B . 将 Vi = px 代入 上 式 ， 并 整理 可 得 : 
尺 
Z2 


:从 浊 ， 计 
六 
本 


B -1- 








若 取 RC =1 ，r=e， 则 上 式 的 特征 方程 为 : 
(+D2 -8B2=0 
和 = B-1 

根据 B 的 不 同 值 ， 系 统 状态 轨迹 可 有 下 列 几 种 情况 : 

@@ 当 B>1 时 ， 有 和 Xi >0, 入 ;<0， 系 统 的 状态 轨迹 为 鞍点 。 点 ( 0, 0 ) 为 系统 的 一 个 平衡 
点 。 只 有 当初 始 值 处 于 凤 = - 巡 的 直线 上 ， 才 能 使 系统 最 终 收 敛 到 平衡 点 上 。 如 图 5.17(a) 
所 示 ; 
Q@ 当 B<1 时 ， 有 Xi <0, 和 > <0 ， 此 时 不 论 系统 的 初始 状态 为 何 值 ， 均 能 收敛 到 唯一 
的 平衡 点 (0,0 ) 上 .其 状态 空间 上 的 轨迹 如 图 5.17(b) 所 示 ， 





(Ga) (b) 
图 5.17 ”网络 解 的 情况 
从 【 例 5.8 〗 中 可 以 看 出 ， 只 有 当 B <1 时 系统 才能 稳定 ， 否 则 系统 很 难 稳定 。 为 了 能 
够 保证 系统 的 稳定 性 ,无 论 对 什么 样 的 初始 条 件 ， 都 能 收敛 到 系统 的 稳定 点 上 ,我 们 对 【 例 
5.8 】 的 电路 图 结构 进行 改进 。 
【 例 5.9 了 将 【 例 5.8 】 中 的 第 二 个 运算 放大 器 的 输出 取 反 ， 即 有 v2 = - pzx2z ， 如 图 5.18 
所 示 ， 重 新 分 析 系 统 的 稳定 性 。 








图 5.18 稳定 的 网 络 结构 图 














解 : 
状态 方程 得 : 
11 8 
1 Rr R | 
[让 提 站 
尺 尺 
其 特征 方程 为 : 
2 7 有 + 和 本 B2 8 
RCr 尺 Cr 尺 2r2 
解 上 述 方程 得 : 
_ 玉 + 及 + 六 2 B2 __R+r ,8 
412= 一 RCr + | 笃 7] [ 忆 RCr =:RC 
《2 


图 5.19 稳定 网 络 状态 轨迹 图 


特征 根 具 有 负 实 部 和 非 零 虚 部 ， 所 以 该 系统 的 状态 轨迹 是 一 个 螺旋 递减 直至 为 0 的 曲 
线 。 任 何 初 始 状态 经 过 系统 的 运行 后 ， 最 终 趋 于 稳定 的 平衡 点 ， 





5.4.3 ” 霍 普 菲尔德 能 量 函 数 及 其 稳定 性 分 析 


赴 普 菲尔德 在 80 年 代 初 提出 了 一 个 对 单 层 反馈 动态 网 络 的 稳定 性 判别 的 画 数 , 这 个 函 
数 有 明确 的 物理 意义 ， 是 建立 在 能 量 基 础 上 的 ， 同 李 雅 普 诺 夫 天 数 一 样 ， 霍 普 菲 尔 德 认为 
在 系统 的 运动 过 程 中 ， 其 内 部 储存 的 能 量 随 着 时 间 的 增加 而 逐渐 减少 ， 当 运动 到 平衡 状态 
时 ， 系 统 的 能 量 耗 尽 或 变 得 最 小 ， 那 么 系统 自然 将 在 此 平衡 状态 处 渐 近 稳定 ， 即 有 
limV(D=Ve。 因 此 ， 若 能 找到 一 个 可 以 完全 描述 上 述 过 程 的 所 谓 能 量 郴 数 ， 那 么 系统 的 稳 


定性 问题 就 可 解决 。 为 此 对 霍 普 菲尔德 反馈 网 络 定义 了 一 种 能 量 函 数 已 ， 称 为 霍 普 菲 尔 德 
能 量 椰 数 ， 这 个 下 可 正 可 负 ， 但 负 向 有 界 。 所 以 说 ， 它 是 李 雅 普 诺 夫 函 数 的 一 种 推广 ， 是 
广义 的 李 雅 普 诺 夫 函数 。 对 于 连续 反馈 网 络 的 电路 实现 其 状态 方程 组 为 : 


dui 区 
2 ,十 7 
d R 疝 风 7 (5.15) 
放 = 态 (6) 
当 系统 达到 稳定 输出 时 ， 霍 普 菲 尔 德 能 量 函 数 定义 为 : 
1 闻 产 天 户 1 _ 
已 =- 二 忆 六 wjvipj- vi7+ 了 二 FI1(2d7 (5.16) 
i=1j=1 i=1l i=1 玉 


其 中 :去 = + 立 wr，my 为 第 7 个 输入 与 第 1 个 输 人 之 间 的 连接 导 纳 ，wy = 有 -3 与 
。 
C 分 别 为 第 ;个 运算 放大 器 的 电阻 和 输入 电容 。 工 为 外 加 电流 ,上 入 分 别 为 第 ;个 运算 放 
大 器 的 输入 与 输出 .它们 之 间 的 关系 为 一 个 单调 上 升 的 函数 关系 , 如 图 5.20(a) 所 示 ， 其 中 
表示 运算 放大 器 的 放大 倍数 ， 图 中 给 出 了 不 同 P 下 输入 与 输出 之 问 的 关系 . 

在 能 量 函 教 ( 5.16 ) 式 中 ， 函 数 FI(vi) 为 四 的 道 本 数 ， 必 为 妆 的 函数 关系 图 ， 如 图 
5.20(b) 所 示 ; 能 量 函数 中 的 积分 项 表示 了 输入 状态 与 输出 之 间 关 系 的 能 量 项 ， 其 积分 结果 
如 图 5.20(c) 所 示 。 

对 于 理想 放大 器 ，( 5.16 ) 式 所 定义 的 能 量 本 数 可 以 被 简化 为 : 


: 六 六 
天 =- 一 工 志 WiYyiyy- 工 Yi 
2 j=1j=1l 7J=1 


二 Vi _1 
(7 5 Cn) dm 





Ga) 人 G@) 
图 5.20 能量 函数 中 各 函数 之 间 的 函数 关系 式 
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这 也 就 成 了 离散 网 络 的 替 普 菲尔德 能 量 函 数 . 

对 于 所 定义 的 鬼 普 菲尔德 能 量 函 数 (5.16) 式 有 以 下 结论 : 对 于 (5.14) 式 定义 的 CHNN 
模型 系统 ， 若 函数 w = (ui ) 是 单调 递增 且 连 续 可 微 ， 则 能 量 函 数 (5.16) 式 是 单调 递减 且 
有 界 。 

下 面 首 先 分 析 一 下 能 量 函 数 的 单调 递减 . 

已 知 : a)Wi 三 妈 产 ; 

b) jw) 为 单调 递减 连续 函数 . 


岂 下 
=- 了 汪 > | ww- 
二 YAV1 尺 


由 已 知 条 件 b) 可 得 六 ，(w )> 0， 又 因为 C> 0， 所 以 有 至 <0. 


， dz 
当 坚 -0 时 ， 有 呈 =0， i=12,..,r ， 这 表明 ， 能 量 已 的 极 小 点 ， 与 = 0 的 平 


点 是 一 致 的 。 

下 面 讨 论 已 的 有 界 性 。 这 里 最 主要 的 是 尼 不 能 下 降 到 负 无 穷 大 ， 巨 在 负 方向 要 有 界 . 
只 有 这 样 ， 当 瑟 随 着 时 间 的 增加 必定 会 达到 一 个 极限 值 ， 而 此 极限 值 正 是 系统 的 稳定 点 . 

1 ) 因为 对 于 状态 和 输出 ， 有 lw 1IK 1 ，W 是 由 电子 元 器 件 的 有 界 数组 成 的 。 所 以 已 
中 第 一 项 是 有 界 的 ; 

2 ) 因为 外 加 电流 云 也 是 有 限 值 。 所 以 巨 中 第 二 项 是 有 界 的 ; 

3 ) 对 于 已 中 第 三 项 ， 式 中 天 (' ) 的 反映 了 神经 网 络 的 状态 与 输出 之 间 的 关系 ， 也 是 
运算 放大 器 的 输入 与 输出 之 间 的 函数 关系 。 若 用 B 代表 运算 放大 器 的 增益 ， 那 么 几 与 六 的 


关系 可 用 风 = Fi,B) 来 代替 六 = 三) ， 并 由 此 可 得 三 = 计 FiGn) 


上 娘 1 ，--1 
由 此 可 得 第 三 项 为 已 24 六 0 玉 《〈Z4 7 ， 从 图 5.18(c) 中 可 以 看 出 ， 上 式 的 积分 对 一 


个 守 来 说 在 w =0 时 为 零 ， 而 在 其 他 情况 下 为 正 ， 当 6 ~ 时 ，Yi( 目 ) 趋向 一 个 符号 函数 ， 
此 时 ， 积 分 项 的 作用 很 小 而 可 以 忽略 不 计 ， 能 量 函 数 就 由 第 一 、 二 两 项 的 和 决定 ， 成 为 离 
散 时 的 情况 ; 忌 有 界 . 如 果 B 比较 小 ， 第 三 项 为 正 ， 它 的 贡献 主要 在 靠近 = + 1 的 边缘 ， 
其 值 总 是 小 于 2|w|w| ， 所 以 也 是 有 界 的 。 

当 我 们 对 反馈 网 络 应 用 赴 普 菲尔德 能 量 画 数 后 ， 从 任意 一 个 初始 状态 开始 ， 因 为 在 每 
次 和 迭代 后 都 能 满足 AE <0 ， 所 以 网 络 的 能 量 将 会 越 来 越 小 ， 最 后 趋 于 稳定 点 AB =0。 霍 普 
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菲尔德 能 量 函 数 的 物理 意义 是 : 在 那些 渐进 稳定 点 的 吸引 域内 ， 离 吸引 点 越 远 的 状态 ， 所 
具有 的 能 量 越 大 ， 由 于 能 量 函 数 的 单调 下 降 特 性 ,保证 状态 的 运动 方向 能 从 远离 吸引 点 处 ， 
不 断 的 趋 于 吸引 点 ， 直 到 达到 稳定 点 。 

几 点 说 明 : 

人 能量 栅 数 是 反馈 网 络 中 一 个 很 重要 的 概念 。 根 据 能 量 画 数 ， 可 以 很 方便 的 判定 系统 
的 稳定 性 。 网络 的 能 量 值 与 其 状态 存在 着 一 定 的 联系 ， 即 能 量 的 改变 对 应 着 状态 的 变迁 ， 
网 络 的 稳定 状态 对 应 于 能 量 函 数 的 极 小 点 。 正 是 这 种 对 应 关系 为 网 络 进行 优化 计算 葛 定 了 
基础 ; 

@ 能 量 函 数 与 李 雅 普 诺 夫 函 数 的 区 别 在 于 : 李 氏 函数 被 限定 在 大 于 零 的 范围 内 ， 而 能 
量 郴 数 无 此 要 求 ， 但 要 求 负 向 有 界 ; 李 氏 天 数 要 求 在 零点 值 为 零 , 即 0) = 0 ， 而 能 量 函 数 


无 此 要 求 ， 所 以 ， 当 能 量 函 数 已 满足 已) <0,E(O) = 0, 生 < 0 时 ， 和 堆 莹 非 尔 德 能 量 


数 就 是 李 雅 普 诺 夫 天 数 了 ; 
回 霍 普 菲 尔 德 选择 的 能 量 函 数 ， 它 只 是 保证 系统 稳定 和 渐 近 稳定 的 充分 条 件 ， 而 不 是 


必要 条 件 ， 其 能 量 函数 也 不 是 唯一 的 。 为 了 能 够 使 5 < 0 ， 堆 普 非 尔 德 对 设计 权 wy 有 一 
个 对 称 性 的 要 求 ， 即 wy = wj 和 PE > 0 的 要 求 不 少 文章 阐述 了 即使 不 满足 连接 权 和 矩阵 
对 称 的 条 件 ， 仍 然 可 以 达到 系统 的 稳定 ， 


5.4.4 能量 函 数 与 优化 计算 


所 谓 优 化 问题 ， 是 求解 满足 一 定 约束 条 件 下 的 目标 琐 数 的 极 小 值 问 题 。 有 关 优 化 的 传 
统 算法 很 多 ， 如 梯度 法 、 单 纯 型 法 等 ， 由 于 在 某 些 情况 下 ， 约 束 条 件 的 过 于 复杂 ， 加 上 变 
量 维 数 较 多 等 诸多 原因 ， 使 得 采用 传统 算法 进行 的 优化 工作 耗 时 过 多 ， 有 的 甚至 达 不 到 预 
期 的 优化 结果 。 

霍 普 菲 尔 德 能 量 函 数 是 一 个 反映 了 多 维 神经 元 状态 的 标量 函数 ， 而 且 可 以 用 简单 的 电 
路 形成 人 工 神 经 网 络 ， 它 们 的 互联 形成 了 并 联 计算 的 机 制 。 当 各 参数 设计 合理 时 ， 由 电路 
组 成 的 系统 的 状态 ， 可 以 随时 间 的 变化 ， 最 终 收 敛 到 渐 近 稳定 点 上 ， 并 在 这 些 稳定 点 上 使 
能 量 函 数 达 到 极 小 值 。 以 此 为 基础 ， 可 以 人 为 地 设计 出 与 人 工 神经 网 络 相对 应 的 电路 中 的 
参数 ， 把 优化 问题 中 的 目标 函数 、 约 束 条 件 与 霍 普 菲尔德 能 量 画 数 联系 起 来 。 这 样 ， 当 电 
路 运行 后 达到 的 平衡 点 ， 就 是 能 量 枯 数 的 极 小 点 ， 其 系统 状态 满足 了 约束 条 件 下 的 目标 函 
数 的 极 小 值 ， 在 此 方式 下 ， 利 用 人 工 神经 网 络 来 解决 优化 问题 。 由 于 人 工 神 经 网 络 是 并 行 
计算 ， 其 计算 量 不 随 维 数 的 增加 而 发 生 指数 性 质 的 “爆炸 ”， 因 而 特别 适用 于 解决 有 此 问 
题 的 优化 问题 . 
5.4.4.1 能量 函数 设计 的 一 般 方法 

设 优化 目标 函数 为 Aio0, & 6 R ， 为 人 工 神经 网 络 的 状态 ， 也 是 目标 函数 中 的 变量 。 优 
化 的 约束 条 件 为 : 8(CO = 0 。 优 化 问题 归结 为 : 在 满足 约束 的 条 件 下 ， 使 目标 函数 最 小 。 
由 于 可 以 设计 出 等 价 最 小 的 能 量 函 数 羽 为 : 
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下 =NXKO+ 工 lg (ul 
这 里 l&，(o) 也 称 为 惩罚 函数 ， 因 为 在 约束 条 件 &8 (区 = 0 不 能 满足 时 ， 了 lg (ol 的 
值 总 是 大 于 零 ， 造 成 五 不 是 最 小 。 
对 于 目标 郴 数 , 妃 o), 一 般 总 是 取 一 个 期 望 值 与 实际 值 之 间 之 差 的 平方 或 绝对 值 的 标 重 函 
数 ， 这 样 能 够 保证 Ab 总 是 大 于 零 。 根 据 霍 普 菲 尔 德 能 量 函 数 的 要 求 ， 只 有 无 在 负 的 方向 


上 有 界 ， 即 |@| < Bax ,同时 呈 < 0 ， 则 系统 最 后 总 能 达到 已 的 最 小 且 呈 -0 的 点 ， 此 点 
同时 又 是 系统 稳定 点 ， 即 - 0 的 点 。 由 于 求解 优化 问题 的 已 往往 是 状态 “的 函数 ， 所 
以 ， 为 了 求解 方便 ， 常 常 将 呈 < 0 的 条 件 转化 为 对 状态 求 导 的 条 件 如 下 : 


全 = 一 (5.17 ) 
da 于- 到 上 -yd)2<0 
这 是 因为 ， 本 二 ax ”dr 人 dr 六 d 上 


可 以 说 条 件 ( 5.17 ) 式 是 宇 & 0 的 另 一 种 表达 形式 。 
同 理 可 得 另 一 个 等 价 的 条 件 为 : 
0E(w) dy 
bw 由 
所 以 在 用 替 普 菲尔德 能 量 郑 数 求解 优化 问题 时 ， 首 先 应 把 问题 转化 为 目标 函数 和 约束 
条 件 ， 然 后 构造 出 能 量 枯 数 ， 并 利用 条 件 式 求 出 能 量 函 数 中 的 参数 ， 由 此 得 到 人 工 神经 网 
络 的 连接 权 值 。 
5.4.4.2 ”具体 设计 步骤 
1 ) 根据 要 求 的 目标 函数 ， 写 出 能 量 函 数 的 第 一 项 AO); 
2 ) 根据 约 东 条件 8(CoO = 0 ， 写 出 惩罚 函数 ， 使 其 在 满足 约束 条 件 时 为 最 小 ， 作 为 能 量 
函数 的 第 二 项 ; 


3 ) 加 上 顶 抽 -1( 24 7 ， 此 项 是 人 为 加 上 的 ， 因 为 在 神经 元 状态 方程 中 ， 丰 
7 


在 一 项 - 到 ， 它 是 在 人 工 神经 网 络 的 电路 实现 中 产生 的 。 为 了 使 设计 出 的 优化 结果 能 够 在 


电路 中 得 以 实现 而 加 上 此 项 。 它 是 一 个 正 值 函 数 ， 在 运行 放大 增益 足够 大 时 ， 此 项 可 以 忽 
略 ; 
4 ) 根据 能 量 函 数 瓦 求 出 状态 方程 ， 并 使 下 式 成 立 : 
05。 du 
gu td 
5 ) 根据 条 件 与 参数 之 间 的 关系 ， 求 出 Yi 六 和 及 人 =1 2 7); 
6 ) 求 出 对 应 的 电路 参数 ， 并 进行 模拟 电路 的 实现 。 
下 面 举 例 说明 求 解 优化 问题 的 模拟 人 工 神经 网 络 的 电路 实现 的 过 程 。 


【 例 5.10 1 用 人 工 神经 网 络 来 设计 一 个 4 位 A/D 变换 器 , 要 求 将 一 个 连续 的 从 0 到 15 
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的 模拟 量 z 变化 为 输出 为 0 或 1 的 二 进 制 数字 量 ， 即 六 《 {0, 1,v 代表 第 个 神经 元 的 输 
出 : 冯 =FGO; 居 为 单调 上 升 有 限量 表 数 。 

解 : 

A/D 转换 器 的 实质 是 对 于 给 定 的 模拟 量 输入 ， 寻 找 一 个 二 进 制 数字 量 输出 ， 使 输出 值 
与 输入 模拟 量 之 间 的 差 为 最 小 。 传 统 的 转换 方式 ， 只 要 对 模拟 输入 量 用 2 碾 转 相 除 ， 记 录 
余数 ， 就 可 得 到 二 进 制 的 变换 值 。 采 用 人 工 神经 网 络 进行 转换 ， 首 先 需 定义 能 量 函 数 . 一 
个 四 位 A/D 转换 器 可 以 用 具有 四 个 输出 节点 的 CHNN 来 实现 。 

假定 神经 元 的 输出 电压 W (i = 1,2,3) 可 在 0 与 1 之 间 连 续 变化 ， 当 网 络 达到 稳 态 时 ， 各 
节点 的 输出 为 0 或 1 ， 若 此 时 的 输出 状态 所 表示 的 二 进 制 值 与 模拟 输入 量 相等 ， 则 表明 此 
人 工 神经 网 络 达到 了 A/D 变换 器 的 功能 。 输 入 与 输出 之 问 的 关系 则 满足 下 式 : 


2 Vi22 = 
i=0 


由 此 可 见 ， 要 使 A/D 转换 器 结果 vayzvlvo 为 输入 x 的 最 佳 数 字 表 示 ， 必 须 满足 两 点 : 

@ 每 个 输入 六 必须 趋 于 0 值 或 1 值 ， 至 少 比 较 接 近 这 两 个 数 ; 

@ vivyvivo 的 和 值 应 尽量 接近 值 ， 

为 此 ， 利 用 最 小 方差 的 概念 ， 对 输出 按 下 列 指标 来 选取 义 d: 

/@9=w- 三 wz202>0 

上 式 中 ，x 为 输入 的 模拟 量 ，V 为 数字 量 ， 对 于 夺 = 01.2.3, w 6 {0, 1]; 2 表示 二 进 抽 
数 的 位 数 ， 此 目标 函数 大 于 零 ， 所 以 7 存在 极 小 值 ， 且 当 No = fonto 时 ，Yi 为 环 的 正确 
转换 。 

将 /oo) 展 开 ， 并 整理 后 得 : 


Jo = 并 ww 并 2 + 


仅 用 一 项 Ko 并 不 能 保证 0 因为 可 能 存在 其 他 w 值 ,( v 
可 以 在 [0, 1 ] 中 连续 变化 ) 使 Po 为 最 小 ， 为 此 ， 增 加 一 个 约束 条 件 : 
3 
8OO= -了 CD020- Dv 


8(z 保 证 了 输出 只 有 在 {0, 1} 时 到 最 小 值 零 ， 而 对 于 六 为 0 与 1 之 间 的 实数 时 ，8&( = 
0 . 所 以 此 约束 条 件 保证 了 输出 的 数字 量 0 或 1 。 
a) 写 出 能 量 函 数 巨 


3 荆 背 
BE=jO+gdO+ 盖 人 FICba7 
i=0 有 ; 0 
3 
-= 了- 2 -| 20i - Dwi+ 人 -并 1(Zd7 
如 前 所 述 ， 考 虑 到 电路 的 具体 实现 在 巨 上 加 了 一 个 大 于 零 的 分 项 。 十 分 明显 ， 巨 是 大 
于 零 的 即 有 下 界 。 





dx; 
b 1 
和 
因为 : 
dv _ 2 所 


而 ( 太 ) > 0。 人 即 : FF ( 太 )=C。 
所 以 有 : 


-和 -CH 
ov dt df 
而 
强 =27i 224+2261 4 下 = 
0v J=0 ， 玉 dt 
天 二 
重 写 上 式 得 : 
di 三 3 vi+r 211 vi 
=- 上 +(C28471y +C221+2i8 
) 


7 
c) 将 上 式 与 实现 电路 的 状态 方程 组 相 比较 可 得 : 


2i+j ， Itz1 5 
mi 0，i=/) ， 0 


即 
WO01 = W10= -2; Woz = W20 = -4; Wo = W30 = -8; Wi2 = W21=-8; 
W1H =W31=-16; WwW233=W32= -32; Woo = WII= W22 = W3= 0. 
四 =-0. 二 0 
= -2+22i 
72 = -6G + 41li 
1 = -32 + 61. 


根据 上 面 的 设计 ， 可 以 设计 出 完成 优化 求解 的 模拟 电路 人 工 神经 网 络 系统 ， 如 图 5.21 
所 示 . 权 的 负 值 是 通过 倒 相 运算 放大 器 来 完成 的 ， 所 得 到 的 负 输 出 再 用 一 次 倒 相 变 正 ， 
中 标 出 的 数据 是 以 导 纳 表 示 wr 的 值 ， 





| > 





OO 了 取 ZE | 
2 的 2 CC | 









CCP | 


-1 0~7157 
图 5.21 固定 导 纳 矩阵 的 4 位 AID 变换 实现 电路 
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在 每 次 运行 网 络 之 前 ， 应 使 状态 复位 为 零 ， 这 样 ， 当 给 网 络 输入 “ 值 时 ， 网 络 的 运行 
后 的 稳定 输出 即 为 & 的 正确 二 进 制 输出 。 若 运行 前 没有 进行 复位 ， 那 么 在 下 一 次 进行 转换 
时 ， 状 态 仍 停留 在 上 次 转换 的 输出 状态 ， 即 局 部 极 小 值 上 ， 因 而 难以 跳出 ， 可 能 造成 错误 
的 转换 。 

当 输 入 xz 为 0~ 15V 数字 时 ， 网 络 对 应 可 转换 为 0000~ 1111 之 间 的 数 ， 这 种 输入 模拟 
量 与 输入 数字 量 之 间 具 有 5.22 图 的 关系 。 

慷 
1111 


1010 


1000 


0 15 4( 扫 
图 5.22 AD 转换 输入 /输出 关系 图 


从 这 个 例子 可 以 看 出 ， 优 化 问题 的 求解 是 设法 将 问题 转化 为 能 量 函数 的 构造 ， 一 旦 对 
应 的 能 量 枯 数 构造 成 功 ， 人 工 神经 网 络 电路 也 就 设计 出 来 ， 最 优 解 就 可 以 随 之 解 出 来 了 . 
但 这 种 能 量 枯 数 的 构造 没有 现成 的 公式 ， 而 是 一 种 技能 ， 和 赁 经 验 而 熟 能 生 巧 ， 为 此 下 面 再 
举 一 个 利用 能 量 函 数 求解 优化 问题 的 例子 . 

【 例 5.11 〗 TSP 问题 。 

所 谓 TSP ( Travelling Saleman Problem ) 问题 ， 即 “旅行 商 问 题 ” 是 一 个 十 分 有 和 名 的 
难以 求解 的 优化 问题 ， 其 要 求 很 简单 : 在 半 个 城市 的 集合 中 ， 找 出 一 条 经 过 每 个 城市 各 一 
次 ， 最 终 回 到 起 点 的 最 短路 径 。 

如 果 已 知 城市 4 ，B3，C ，D ，… 之 间 的 距离 为 de, dsc, dcp, …， 那么 总 的 距离 d = 
anse + dec + dco + …， 对 于 这 种 动态 规 化 问题 ， 要 去 求 其 min(d) 的 解 。 因 为 对 于 靖 个 城市 的 
全 排列 共有 盖 种 ， 而 TSP 并 没有 限定 路 径 的 方向 ， 即 为 全 组 合 ， 所 以 对 于 固定 的 城市 数 " 
的 条 件 下 ， 其 路 径 总 数 8 为 Se = 刀 /22(2 > 4 例如 2=4 时 ，S =3， 即 有 三 种 方式 ， 
如 图 5.23 所 示 。 


人 已 4 媒 4 怪 
C 刀 C 万 C 姜 


图 $.23 =4 时 的 TSP 路 径 图 
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表 5.2 城市 数 和 对 应 的 旅行 方案 数 





由 斯 特 林 ( Stirlin ) 公 式 ， 路 径 总 数 可 写 为 ; 
Sr = 元 [y 厌 ，en(m] 


若 采 用 穷 举 搜索 法 ， 则 需要 考虑 所 有 可 能 的 情况 ， 找 出 所 有 的 路 径 ， 再 分 别 对 其 进行 
比较 ， 以 找 出 最 佳 路 径 ， 因 其 计算 复杂 程度 随 城市 数目 的 增加 呈 指 数 增长 ， 可 能 达到 无 法 
进行 的 地 步 。 从 表 5.2 中 可 以 看 到 ， 当 城市 数 为 16 时 ， 旅 行 方案 数 已 超过 6 x 101 种 ,而 
每 增加 一 个 城市 ， 所 增加 的 方案 数 为 : 

(+DL /mL 
2(02+D/ 27 

这 类 问题 称 为 完全 非 确定 性 多 项 式 问题 ( Nondeterministic Polynomial Complete， 简 称 
NP 完全 问题 ) 。 由 于 求解 最 优 解 的 负担 太 重 ， 通 常 比较 现实 的 作法 是 求 其 次 优 解 .元 普 菲 
尔 德 网 络 正 是 一 种 合适 的 方法 。 因 为 它 可 以 保证 其 解 向 能 量 函数 的 最 小 值 方向 收敛 ， 但 不 
能 确保 达到 全 局 最 小 值 点 . 

采用 连续 时 间 的 霍 普 菲 尔 德 网 络 模型 来 求解 TSP ， 开 辟 了 一 条 解决 这 一 问题 的 新 途 
径 . 其 基本 思想 是 把 TSP 映射 到 CHNN 上 ， 通 过 网 络 状态 的 动态 演化 逐步 趋向 稳 态 而 自 
动 地 搜索 出 优化 解 . 为 了 便于 神经 模型 的 实现 , 必须 首先 找到 过 程 的 一 个 合适 的 表达 方法 ， 
TSP 的 解 是 若干 城市 的 有 序 排 列 , 任何 一 个 城市 在 最 终 路 径 上 的 位 置 可 用 一 个 ” 维 的 0、1 
矢量 表示 ， 对 于 所 有 半 个 城市 ， 则 需要 一 个 靖 x 半 维 矩阵 ， 例 如 以 5 个 城市 为 例 ， 一 种 可 
能 的 排列 矩阵 为 : 
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其 中 ， 行 矢量 表示 城市 名 ， 列 矢量 表示 城市 中 在 旅行 中 排 的 序号 。 该 矩阵 唯一 地 确定 

了 一 条 有 效 的 行程 路 径 : 
CA 一 一 下 一 五 

很 明显 ， 为 了 满足 约束 条 件 ， 该 矩阵 中 每 一 行 以 及 每 一 列 中 只 能 有 一 个 元 素 为 1 ， 其 
余 元 素 均 为 零 。 这 个 矩阵 称 为 关联 阵 。 若 用 心 表示 从 城市 x 到 城市 的 距离 ， 则 上 面 路 径 
的 总 长 度 为 : 

do =dcg =dhp =dpp =0pF 

TSP 的 最 优 解 是 求 长 度 心 为 最 短 的 一 条 有 效 的 路 径 . 为 了 解决 TSP ,必须 构造 这 样 一 
个 网 络 : 在 网 络 运行 时 ， 其 能 量 能 不 断 降低 。 在 运行 稳定 后 ， 网 络 输出 能 代表 城市 被 访问 
的 次 序 ， 即 构成 上 述 的 关联 矩阵。 网 络 能 量 的 最 小 值 对 应 于 最 佳 (或 次 最 佳 ) 的 路 径 距 离 。 
所 以 解决 问题 的 关键 ， 仍 然 是 构造 合适 的 能 量 函 数 。 

(1 ) 目标 函数 凡人 

对 于 一 个 半 城 市 的 TSP， 需 要 站 x 妹 节 点 的 CHNN . 假设 每 个 神经 元 的 输出 记 为 Vs ， 
Vy， 行 下 标 x 和 > 表示 不 同 的 城市 名 ， 列 下 标 半 和 > 表示 城市 在 路 径 中 所 处 的 次 序 位 置 ， 通 
过 Va， 人 网 取 0 或 1， 可 以 通过 关联 矩阵 确定 出 不 同 种 的 访问 路 径 . 用 必 表示 两 个 不 同 的 
城市 之 间 的 距离 ， 对 于 选 定 的 任 一 a ， 和 它 相 邻 的 另 一 个 城市 y》 的 状态 可 以 有 Yxiao 和 
VD)。 那 么 ， 目 标 郴 数 凡人) 可 选 为 : 


J(Y) = 二 > 2 dopVa(YVyGD +Vyi-D) 
Xz》 

这 里 所 选择 的 丸 岂 表示 的 是 对 应 于 所 经 过 的 所 有 路 径 长 度 的 总 量 ， 其 数值 为 一 次 有 效 
路 径 总 长 度 的 倍数 ， 当 路 径 为 最 佳 时 ， 丸 达到 最 小 值 ， 它 是 输出 的 函数 ， 

当 Vai=0 时 ， 则 有 : AP = 0 此 输出 对 AD) 没有 贡献 ; 当 Vs = 工时 ， 则 通过 与 相 邻 
位 置 的 城市 夺 ! 和 :1 的 距离 ， 如 在 关联 矩阵 中 Vp = 1 ， 那 么 ， 与 = 3 相 邻 位 上 的 两 个 
城市 分 别 为 Ya 和 Vs ， 此 时 在 fjV) 中 可 得 到 wp 和 dns 两 个 相 加 的 量 ， 依 此 类 推 ， 把 推销 
员 走 过 的 全 部 距离 全 加 起 来 ， 即 得 矿 太 。 

(2) 约束 条 件 8(J 

约束 条 件 要 保证 关联 矩阵 的 每 一 行 每 一 列 中 只 有 一 个 值 为 1 ， 其 他 值 均 为 零 ， 用 三 项 
表示 为 : 

2 


sg() = 于 乙 二 马 YxzYy 艺 二 工 dxzyYVzy+ 一 开 二 (Ye -1) 
2 x > 2 > 》 ， X 了 
Xz》 zz/ 


中 


其 中 : 
第 一 项 ， 当 且 仅 当 关联 矩阵 每 一 列 包含 不 多 于 一 个 1 元素 时 ， 此 项 为 最 小 ; 
第 二 项 ， 当 且 仅 当 关 联 和 矩阵 每 一 行 包含 不 多 于 一 个 工 元 素 时 ， 此 项 为 最 小 ; 
.第 三 项 ， 当 且 仅 当 关联 矩阵 中 元 素 为 1 的 个 数 为 时 ， 此 项 为 最 小 。 
即 8(V) 保 证 满足 了 所 有 三 项 要 求 ， 收 敛 到 有 效 解 时 其 值 为 0 。 
(3) 总 的 能 量 函 数 瓦 
刁 = 太 人 +8S8() 





选择 使 用 高 增益 放大 器 ， 这 样 能 量 函 数 中 的 积分 分 项 可 以 忽略 不 计 ， 求 解 得 网 络 的 联 
接 权 值 为 : 
放 寻 ,天 二 S06 (1- 50) 行 抑制 
-5870-8>) 列 抑制 
-了 全 局 抑制 
- Pdo(5irb +8iGD) 路 径 长 度 


式 中 : 5 - 人 


0 Fiz 
外 部 输入 偏 置 电流 为 : 
ai=C 
求解 TSP 的 连接 神经 网 络 模型 的 运动 方程 可 表示 为 : 
[ =-Sy yp -0 了 -7T 史 厅 ( 风 -用 
2 7 
RRaCz 





二 y》 ,do(WsD 二 VCD)- 
] 

式 中 Lo 为 初始 值 , 非 性 线 函 数 取 近似 于 $ 型 的 双 曲 正切 函数 . 霍 普 菲尔德 和 泰克 (Tank) 
经 过 实验 ， 认 为 取 初 始 值 为 : S=Q= 忆 = 500,T= 200,RC = 1 Uo = 0.02 时 ， 其 求解 10 个 
城市 的 TSP 得 到 良好 的 效果 。 人 们 后 来 发 现 , 用 连续 霍 普 菲 尔 德 网 络 求解 像 TSP 这 样 约束 
优化 问题 时 ， 系 统 S$，@ ， 忆 、7 了 的 取 值 对 求解 过 程 有 很 大 影响 。 





了 
VYx = FUza) = 2 十 起 ( 


5.S 本章 小 结 


对 于 联想 记忆 和 问题， 动态 网 络 比 前 向 网 络 有 更 强 的 适应 性 。 一 般 来 讲 ， 联 想 记忆 中 不 
仅 要 求 把 需 存 储 的 输入 样本 存储 起 来 ， 并 能 予以 恢复 ， 而 且 要 求 网 络 对 所 存 样本 中 的 每 一 
个 样本 有 足够 大 的 吸引 域 ， 以 便 对 模糊 、 畸 变 、 缺 损 信 息 ， 能 予以 复原 和 补 全 。 在 反馈 网 
络 的 设计 中 ， 其 系统 分 析 是 网 络 设 计 的 基础 。 系 统 分 析 工 作 可 使 人 们 能 对 网 络 模型 有 更 清 
楚 更 全 面 的 认识 。 它 包括 特性 分 析 和 功能 分 析 两 个 方面 。 特 性 分 析 包括 : 拓扑 结构 、 网 络 
容量 、 算 法 分 析 、 求 解 稳定 性 、 收 敛 性 、 计 算 复杂 性 分 析 等 ; 功能 分 析 包 括 : 联想 记忆 能 
力 、 自 组 织 、 息 学 习 和 自 适应 能 力 、 处 理 模 糊 、 了 随机、 缺损 信息 能 力 、 识 别 各 类 模式 的 能 
力 等 ， 

对 离散 的 反馈 网 络 ， 若 wj = % 广 (系统 对 称 联接 ) ， 则 在 网 络 演化 过 程 中 能 量 互 必然 
单调 下 降 。 由 于 妃 有 界 ， 网 络 必然 趋 于 某 个 稳 态 ， 能 量 无 达 局 域 极 小 值 对 应 于 系统 的 某 个 
定点 吸引 子 。 若 将 定点 吸引 子 作为 所 存 样本 ， 则 能 量 厂 的 各 极 值 点 代表 一 系列 存储 内 容 ， 
网 络 的 初 态 〈 包 括 各 不 稳定 状态 点 ) 可 视 作 某 记 忆 事 物 的 已 知 部 分 ， 能 量 函 数 的 变化 则 对 
应 于 存储 内 容 的 联想 过 程 。 网 络 状态 从 非 稳 态 点 向 稳 态 点 的 演化 过 程 相当 于 由 事物 的 部 分 
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信息 自动 联想 出 事物 的 全 部 整体 的 过 程 。 离 网 络 初 态 最 近 的 那个 吸引 子 是 网 络 所 复原 的 某 
存储 内 容 ， 一 般 这 类 网 络 具有 多 个 定点 吸引 子 ， 各 自 具 有 一 定 的 吸引 域 。 系 统 能 量 空间 好 
似 一 个 志 坑 洼 洼 的 大 盆 ， 坑 底 为 定点 吸引 子 ， 坑 的 大 小 为 吸引 域 范围 ， 坑 越 多 ， 定 点 吸引 
子 也 越 多 . 选 定 网 络 初 态 恰似 丢 一 个 小 球 至 某 坑 的 边缘 ， 小 球 落 在 哪个 坑 边 缘 就 掉 向 那个 
坑 底 。 坑 越 大 ， 即 吸引 域 越 大 ， 越 容易 接纳 小 球 至 坑 底 ， 故 联想 范围 就 越 广 。 因此， 联想 
存储 器 的 定点 吸引 子 越 多 ， 吸 引 域 越 大 ， 可 存储 的 内 容 就 越 多 ， 联 想 范围 〈 即 抗 噪声 畸变 
能 力 ) 也 越 大 . 

若 网 络 的 联接 矩阵 中 各 元 素 wj 不 对 称 ， 那 么 情况 就 比较 复杂 ， 除 了 定点 吸引 子 外 ,还 
会 有 极限 环 吸 引子 ， 甚 至 会 有 小 范围 的 混沌 吸引 子 。 因 此 ， 需 对 此 作 系统 的 进一步 分 析 ， 
对 于 给 定 的 网 络 ， 系 统 分 析 所 涉及 的 工作 是 研究 相 空 间 随 时 间 增 长 而 不 断 收缩 的 过 程 ， 终 
态 集 的 大 小 〈 吸 引子 数目 ) 、 吸 引子 类 型 、 吸 引 域 大 小 及 其 形状 等 。 

令 4. 代 表 定 点 吸引 子 ，4n 代 表 mm 周期 吸引 子 ， 有 下 述 结 论 成 立 : 

1 ) 如 权 和 矩阵 对 称 ， 且 正定 ， 则 反馈 网 络 同步 运行 收敛 ， 只 有 4.。 解 ; 

2 ) 如 权 和 矩阵 对 称 ， 且 为 零 对 角 阵 ， 则 网 络 异步 运行 收敛 ， 只 有 4。 解 ; 

3 ) 如 权 和 矩阵 对 称 ， 且 负 定 ， 则 网 络 同步 运行 只 有 4v 解 ; 

4 ) 如 权 和 矩阵 对 称 ， 则 网 络 同步 运行 只 可 能 有 4。 或 4v 解 ， 或 4 和 4" 解 同 时 存在 。 

上 述 这 些 结论 是 动态 网 络 系统 分 析 的 基础 。 由 于 人 工 神经 网 络 系统 理论 尚 不 完善 ， 还 
不 可 能 对 所 有 动态 网 络 的 动态 学 性 质 给 出 结论 ， 故 在 实际 的 系统 分 析 工 作 中 还 存在 较 大 的 
理论 困难 ， 急 待人 们 去 探索 。 事 实 上 ， 根 据 上 述 结论 设计 的 网 络 ， 适 用 范围 很 小 。 而 且 上 
述 判 据 仅 是 充分 条 件 而 非 必 要 条 件 。 除 了 定点 吸引 子 〈 对 应 网 络 收敛 性 ) 性 质 ， 即 存储 状 
态 点 的 稳定 性 外 ， 联 想 存 储 网 络 的 存储 容量 、 伪 吸引 子 以 及 存储 定点 吸引 子 的 吸引 域 形状 
也 是 系统 分 析 的 重要 内 容 ， 网 络 存储 容量 与 定点 吸引 子 数 目 有 关 ， 但 单纯 讨论 存储 容量 是 
没有 意义 的 ， 还 需 考虑 吸引 域 的 大 小 和 形态 以 及 伪 吸 引子 的 数量 ， 只 有 这 样 才能 对 网 络 模 
型 作 全 面 的 评估 。 而 网 络 存储 容量 的 增加 ， 存 储 吸 引子 的 吸引 域 很 快 缩小 ， 而 无 存储 内 容 
的 伪 吸 引子 数量 及 其 吸引 域 范围 会 很 快 地 增加 。 当 网 络 存储 容量 增 大 到 一 定 程 度 时 ， 相 空 
闻 绝 大 部 分 区 域 成 为 伪 吸 引子 区 域 。 此 时 ， 存 储 样本 的 网 络 稳 态 点 吸引 域 极 小 ， 在 某 种 意 
义 上 已 失去 联想 功能 。 另 外 ， 在 网 络 存储 容量 增加 的 情况 下 ， 不 但 存储 态 吸 引子 的 吸引 域 
缩小 ， 而 且 其 吸引 域 形状 变 得 复杂 ， 各 向 同性 程度 明显 变 差 ， 故 联想 能 力 下 降 。 通 过 上 述 
系统 分 析 可 见 ， 和 霍 普 菲 尔 德 网 络 用 作 联 想 存储 时 性 能 较 差 ， 网 络 容 量 小 ， 不 适宜 做 大 规模 
内 容 的 联想 记忆 存储 器 。 


习 是 
【5.1 〗 试 设计 一 个 反馈 网 络 存储 下 列 目标 平衡 点 : 
7= [1--1 1]; 
并 用 6 组 任意 随机 初始 列 矢量 作为 输入 矢量 对 所 设计 的 网 络 的 平衡 点 进行 测试 ,观察 3 
次 循环 的 每 一 次 的 输出 结果 . 
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第 六 章 “” 自 组 织 竞 争 人 工 神 经 网 络 


在 实际 的 神经 网 络 中 ， 比 如 人 的 视网膜 中 ， 存 在 着 一 种 “ 侧 抑制 ”现象 ， 即 一 个 神经 
细胞 兴奋 后 ， 通 过 它 的 分 支 会 对 周围 其 他 神经 细胞 产生 抑制 ， 这 种 侧 抑制 使 神经 细胞 之 间 
出 现 竞争 ， 虽 然 开 始 阶段 各 个 神经 细胞 都 处 于 程度 不 同 的 兴奋 状态 ， 由 于 侧 抑制 的 作用 ， 
各 细胞 之 间 相 互 竞争 的 最 终结 果 是 : 兴奋 作用 最 强 的 神经 细胞 所 产生 的 抑制 作用 战胜 了 它 
周围 所 有 其 他 细胞 的 抑制 作用 而 “ 赢 ” 了， 其 周围 的 其 他 神经 细胞 则 全 “ 输 ” 了 。 

自 组 织 竞 争 人 工 神 经 网 络 正 是 基于 上 述 生物 结构 和 现象 形成 的 。 它 能 够 对 输入 模式 进 
行 自 组 织 训练 和 判断 ， 并 将 其 最 终 分 为 不 同 的 类 型 。 与 BP 网 络 相 比 ， 这 种 自 组 织 自 适应 
的 学 习 能 力 进 一 步 拓宽 了 人 工 神 经 网 络 在 模式 识别 、 分 类 方面 的 应 用 ， 另 一 方面 ， 竞 争 学 
习 网 络 的 核心 一 一 竞争 层 ， 又 是 许多 种 其 他 神经 网 络 模型 的 重要 组 成 部 分 ， 例 如 科 荷 伦 
(ohonen) 网 络 (又 称 特性 图 ) 、 反 传 网 络 以 及 自 适 应 共振 理论 网 络 等 中 均 包 含 竞争 层 . 


6.1 几 种 联想 学 习 规 则 


格 劳 斯 贝 格 〈 S. Grossberg ) 提出 了 两 种 类 型 的 神经 元 模型 : 内 星 与 外 星 ， 用 以 来 解释 
人 类 及 动物 的 学 习 现象 。 一 个 内 星 可 以 被 训练 来 识别 一 个 矢量 ; 而 外 星 可 以 被 训练 来 产生 
矢量 ， 
”由 上 个 输 人 构成 的 格 劳 斯 贝 格 内 星 模 型 如 图 6.1 所 示 。 





6.1 格 劳 斯 贝 格 内 星 模 型 图 


由 Y 个 输出 节点 构成 的 格 劳 斯 由 格外 星 模型 如 图 6.2 所 示 。 

从 图 6.1 和 图 6.2 中 可 以 清楚 地 看 出 ,内 星 是 通过 联接 权 矢量 岁 接受 一 组 输入 信号 尸 ; 
而 外 星 则 是 通过 联接 权 矢 量 向 外 输出 一 组 信号 4 。 它 们 之 所 以 被 称 为 内 星 和 外 星 ， 主 要 是 
因为 其 网 络 的 结构 像 星 形 ， 且 内 星 的 信号 流向 星 的 内 部 ; 而 外 星 的 信和 号 流向 星 的 外 部 。 下 
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面 分 别 详细 讨论 两 种 神经 元 模型 的 学 习 规则 及 其 功效 。 





图 6.2 ” 格 劳 斯 贝 格外 星 模型 图 


6.1.1 ”内 星 学 习 规则 


生 


实现 内 星 输入 /输出 转换 的 激活 函数 是 硬 限制 吨 数 。 可 以 通过 内 星 及 其 学 习 规 则 来 训练 
某 一 神经 元 节点 只 响应 特定 的 输入 矢量 P, 它 是 借助 于 调节 网 络 权 矢量 克 近似 于 输入 矢量 
己 来 实现 的 。 

在 图 6.1 所 示 的 单 内 旦 中 对 权 值 修正 的 格 劳 斯 贝 格 内 是 学 习 规则 为 : 

Awy =r (Pj - YUD) “QG，/ = 172,.7 (6.1) 

由 (〈 6.1 ) 式 可 见 ， 内 星 神经 元 联接 强度 的 变化 。 Awlj 是 与 输出 成 正比 的 。 如 果 内 星 
输出 a 被 某 一 外 部 方式 而 维护 高 值 时 ， 那 么 通过 不 断 反复 地 学 习 ， 权 值 将 能 够 逐渐 趋 近 于 
输入 矢量 亡 的 值 ， 并 趋 使 Aw1y 逐渐 减少 ， 直 至 最 终 达到 wl1j = Pj ， 从 而 使 内 星 权 矢量 学 
习 了 输入 矢量 P ， 达 到 了 用 内 星 来 识别 一 个 矢量 的 目的 。 另 一 方面 ， 如 果 内 星 输出 保持 为 
低 值 时 ， 网 络 权 矢量 被 学 习 的 可 能 性 较 小 ， 甚 至 不 能 被 学 习 。 

现在 来 考虑 当 不 同 的 输入 矢量 严 和 忆 分 别 出 现 在 同一 内 星 时 的 情况 . 首先 , 为 了 训练 
的 需要 ， 必 须 将 每 一 输入 矢量 都 进行 单位 归 一 化 处 理 ， 即 对 每 一 个 输入 矢量 P? (9= 1,2)， 


用 J Zp9)? 去 乘 以 每 一 个 输入 元 素 , 因此 所 得 的 用 来 进行 网 络 训练 的 新 输入 矢量 具有 单 
上 


位 1 的 模 值 。 

当 第 一 个 矢量 输 入 给 内 星 后 ， 网 络 经 过 训练 ， 最 终 达 到 丈 = (PD57 ， 此 后 ， 给 内 星 输 
人 另 一 个 输入 矢量 P ， 此 时 内 星 的 加 权 输 入 和 为 新 矢量 己 与 已 学 习 过 矢量 己 的 点 积 ， 即 

N= 隐 . P=(PD7 . 忆 =ILPIIILP?lcos 212=cos 9612 (6.2) 

因为 输入 矢量 的 模 已 被 单位 化 为 1 ,所 以 内 星 的 加 权 输 入 和 等 于 输入 矢量 中 和 己 之 间 
夹 角 的 余弦。 

根据 不 同 的 情况 ， 内 星 的 加 权 输 入 和 可 分 为 如 下 几 种 情况 : 

1 ) 已 等 于 P!， 即 有 012= 0， 此 时 ， 内 星 加 权 输 入 和 为 1; 

2 ) 忆 不 等 于 P!， 随 着 疡 向 着 己 离 开 方向 的 移动 ， 内 星 加 权 输 入 和 将 逐渐 减少 ， 直 到 忆 
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与 P 垂直 ， 即 21i2=90。 时 ， 内 星 加 权 输 入 和 为 0; 

3) 当 忆 =- 已 ， 即 6bp= 180。 时 ， 内 星 加 权 输 入 和 达到 最 小 值 -1. 

由 此 可 见 ， 对 于 一 个 已 训练 过 的 内 星 网 络 ， 当 输入 端 再 次 出 现 该 学 习 过 的 输入 矢量 时 ， 
内 星 产生 1 的 加 权 输 入 和 ; 而 与 学 习 过 的 矢量 不 相同 的 输入 出 现时 ， 所 产生 的 加 权 输 入 和 
总 是 小 于 1 。 如 果 将 内 星 的 加 权 输 入 和 送信 到 一 个 具有 略 大 于 -1 偏差 的 二 值 型 激活 函数 
时 ， 对 于 一 个 已 学 习 过 或 接近 于 已 学 习 过 的 矢量 输入 时 ， 同 样 能 够 使 内 星 的 输出 为 1 ， 而 
其 他 情况 下 的 输出 均 为 0 .所 以 在 求 内 星 加 权 输 入 和 公式 中 的 权 值 克 与 输入 矢量 尸 的 点 积 ， 
反映 了 输入 矢量 与 网 络 权 矢量 之 间 的 相似 度 ， 当 相似 度 接近 1 时 ， 表 明 输 入 矢量 己 与 权 矢 
量 相似 ， 并 通过 进一步 学 习 ， 能 够 使 权 矢量 对 其 输入 矢量 具有 更 大 的 相似 度 ， 当 多 个 相似 
输入 矢量 输入 内 星 ， 最 终 的 训练 结果 是 使 网 络 的 权 矢量 趋向 于 相似 输入 矢量 的 平均 值 。 

内 星 网 络 中 的 相似 度 是 由 偏差 b 来 控制 , 由 设计 者 在 训练 前 选 定 , 典型 的 相似 度 值 为 上 = 
-0.95， 这 意味 着 输入 矢量 与 权 矢 量 之 间 的 夹 角 小 于 18"。 48'′ .。 若 选 = -0.9 时 ， 则 其 夹 角 扩 
大 为 23" 48'′ 。 

一 层 具 有 个 神经 元 的 内 星 ， 可 以 用 相似 的 方式 进行 训练 ， 权 值 修正 公式 为 : 

Anwi = 及 (P7 -YI G (6.3) 

MATLAB 神经 网 络 工具 箱 中 内 星 学 习 规则 的 执行 是 用 函数 learnis.m 来 完成 上 述 权 矢 
量 的 修正 过 程 : 


dW = leamis ( W,P, A,lr); 
W=W+dwW， 


一 层 * 个 内 星 神 经 元 可 以 作为 一 个 > 到 1 的 解码 器 。 另 外 ， 内 是 通常 被 嵌 在 具有 外 星 
或 其 他 元 件 构成 的 大 规模 网 络 中 以 达到 某 种 特殊 的 目的 。 

下 面 给 出 有 关 训 练 内 星 网 络 例子 ， 

【 例 6.1 】 设 计 内 星 网 络 进行 以 下 矢量 的 分 类 辨识 : 


己 = [0.1826 0.6325; 
0.3651 0.3162; 
0.3477 ”0.3162; 
0.7303 0.6325 ]; 

7=fl0], 

与 感知 器 分 类 功能 不 同 ， 内 星 是 根据 期 望 输出 值 ， 在 本 例题 中 是 通过 迫使 网 络 在 第 一 
个 输入 矢量 出 现时 ， 输 出 为 1 ， 同 时 迫使 网 络 在 第 二 个 输入 矢量 出 现时 ， 给 出 为 0 ， 而 使 
网 络 的 权 矢 量 逼 近期 望 输出 为 1 的 第 一 个 输入 矢量 。 

我 们 首先 对 网 络 进行 初始 化 处 理 : 


[R,Q]=size(P); 
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[S,Q]j=size(T); 
W=zeros(9,R ); 
B=-0.9$*kones(9,1); 
Iax_epoch = 10; 

IT = 0.7; 


注意 权 矢 量 在 此 是 进行 了 零 初 始 化 ， 这 里 的 学 习 速 率 的 选择 也 具有 任意 性 ， 当 输入 矢 
量 较 少 时 ， 学 习 速 率 可 以 选择 较 大 以 加 快 学 习 收 敛 速 度 。 另 外 ， 因 为 所 给 例题 中 所 给 输入 
矢量 已 是 归 一 化 后 的 值 ， 所 以 不 用 再 作 处 理 。 下 面 是 设计 训练 内 星 网 络 的 程序 : 


for epoch = 1 : max_epoch 
fordqd=l:Q 
A=T(:q) 
dW = learnis ( W, P(:,q),A,lr); 
W=W+dW; 
end 

end 


经 过 10 次 循环 以 及 480 次 计算 后 ， 得 到 的 权 矢 量 为 : 


W=[0.1826 0.1651 0.5477 0.7303 ; 
0 0 0 0 ] 


而 当 ir = 0.3 时 ， 其 结果 为 : 


W=[0.1805 0.3609 0.5414 0.7219 ; 
0 0 0 0 


由 此 可 见 ， 学 习 速 率 较 低 时 ， 在 相同 循环 次 数 下 ， 其 学 习 精 度 较 低 。 但 当 输入 矢量 较 
多 时 ， 较 大 的 学 习 速 度 可 能 产生 波动 ， 所 以 要 根据 具体 情况 来 确定 参数 值 。 

在 此 例题 中 ， 因 为 只 有 一 个 输入 矢量 被 置 为 1 ， 所 以 实际 上 ， 所 设置 的 偏差 已 = -0.95 
没有 起 到 作用 。 内 星 网 络 常用 在 竞争 网 络 以 及 后 面 所 要 介绍 的 自 适 应 共振 理论 ART 网 络 
中 . 在 那里 ， 其 网 络 的 期 望 输出 是 通过 竞争 网 络 的 竞争 而 得 到 的 .在 ART 网 络 中 ， 竞 争 获 
胜 节点 的 有 效 性 是 通过 所 给 的 相似 度 妃 值 来 决定 的 。 


6.1.2 ”外 星 学 习 规则 


外 星 网 络 的 激活 函数 是 线性 函数 ， 它 被 用 来 学 习 回 忆 一 个 矢量 ， 其 网 络 输 入 己 也 可 以 
是 另 一 个 神经 元 模型 的 输出 。 外 星 被 训练 来 在 一 层 * 个 线性 神经 元 的 输出 端 产生 一 个 特别 
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的 矢量 4 。 所 采用 的 方法 与 内 星 识 别 矢量 时 的 方法 极其 相似 。 
对 于 一 个 外 星 ， 其 学 习 规则 为 : 
Awia = 太 (ai- mwi) 亡 (6.4) 
与 内 星 不 同 ， 外 星 联接 强度 的 变化 Aw 是 与 输入 矢量 己 成 正比 的 。 这 意味 着 当 输入 矢 
量 被 保持 高 值 ， 比 如 接近 1 时 ， 每 个 权 值 wil 将 趋 于 输出 i 值 ， 若 户 = 1 ， 则 外 星 使 权 值 
产生 输出 矢量 。 
当 输 入 矢量 疡 为 0 时 ， 网 络 权 值得 不 到 任何 学 习 与 修正 。 
当 有 ~ 个 外 星相 并 联 ， 每 个 外 星 与 * 个 线性 神经 元 相连 组 成 一 层 外 星 时 ， 每 当 某 个 外 
星 的 输入 节点 被 置 为 1 时 , 与 其 相连 的 权 值 到 矢量 wi 就 会 被 训练 成 对 应 的 线性 神经 元 的 输 
出 矢量 4 ， 其 权 值 修正 方式 为 : 
A 丽 = 六 :(4- 友 ). 己 (6.5) 
其 中 : 
太 =58 xr 权 值 列 矢量 ; 
太 = 学 习 速 率 ; 
4=38 x94 外 星 输出 ; 
已 =r xd 外 星 输 入 . 


MATLAB 工具 箱 中 实现 外 星 学 习 与 设计 的 函数 为 learnos.m, 其 调用 过 程 如 下 : 


dW =learmos ( W,A,P,Ir); 
W=W+dW， 


下 面 给 出 外 星 的 一 个 例题. 
【 例 6.2 了 下面 有 两 元 素 的 输入 矢量 以 及 与 它们 相关 的 四 元 素 目标 矢量 ， 试 设计 一 个 
外 星 网 络 实现 有 效 的 矢量 的 获得 ， 外 星 没有 偏差。 


PP=[1 0]: 

了 =[0.1826 0.6325; 
0.3651 ”0.3162; 
0.5477 ”0.3162; 
0.7303 ”0.6325 ]; 


很 显然 ， 此 例题 为 内 星 【 例 6.1 】 的 反 定 义 。 

该 网 络 的 每 个 目标 矢量 强迫 为 网 络 的 输出 ， 而 输入 只 有 0 或 1 。 网 络 训练 的 结果 是 使 
其 权 抢 阵 趋 于 所 对 应 的 输入 为 1 时 的 目标 矢量 。 

同样 网 络 被 零 权 值 初始 化 : 


[R,Q]=size(P); 
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[3Q]j=size(T)》 
W=zeros(S,R); 
Iax_epoch = 10; 
ir= 0.3; 
下 面 根据 外 星 学 习 规则 进行 训练 : 


for epoch = 1 : max_epoch 
fordq=l:Q 
A=T(:, 9 
dW = learnos (W,P(:,q),A,Iry); 
W=W+dWi 
end 

end 


一 旦 训练 完成 ， 当 外 星 工作 时 ， 对 设置 于 输入 为 1 的 矢量 ， 将 能 够 回忆 起 被 记忆 在 网 
络 中 的 第 一 个 目标 矢量 的 近似 值 : 


》 Ptest= [1]; 
》 A=Ppurelin (W#Ptesb) 
A= 

0.1774 

0.3548 

0.5322 

0.7097 


由 此 可 见 ， 此 外 星 已 被 学 习 来 回忆 起 了 第 一 个 矢量 。 事实 上 , 它 被 学 习 来 回忆 出 在 【 例 
6.1 】 中 学 习 识别 出 的 那个 矢量 。 即 上 述 外 星 的 权 值 非常 接近 于 【 例 6.1 】 中 已 被 识别 的 矢 
量 。 

内 星 与 外 星之 间 的 对 称 性 是 非常 有 用 的 。 对 一 组 输入 和 目标 来 训练 一 个 内 星 层 与 将 其 
输入 与 目标 相对 换 ， 来 训练 一 个 外 星 层 的 结果 是 相同 的 ， 即 它们 之 间 的 权 和 矩阵 的 结果 是 相 
互 转 置 的 。 这 一 事实 ， 被 后 来 应 用 到 了 ART1 网 络 中。 


6.1.3” 科 和 荷 伦 学 习 规则 
科 荷 伦 学 习 规 则 是 由 内 星 规则 发 展 而 来 的 。 对 于 其 值 为 0 或 1 的 内 星 输出 ， 当 只 对 输 
出 为 在 的 内 星 权 生 阵 进行 修正 ， 即 学 习 规则 只 应 用 于 输出 为 1 的 内 星 上 ， 将 内 星 学 习 规则 


中 的 必 取 值 1 ， 则 可 导出 科 荷 伦 规则 为 : 
Awi = 六 (Pi - w7) (0.6) 
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科 荷 伦 学 习 规则 实际 上 是 内 星 学 习 规则 的 一 个 特例 ， 但 它 比 采 用 内 星 规则 进行 网 络 设 
计 要 节省 更 多 的 学 习 ， 因 而 常常 用 来 蔡 代 内 星 学 习 规 则 。 

在 MATLAB 工具 箱 中 ， 在 调用 科 荷 伦 学 习 规 则 函数 learnk.m 时 ， 一 般 通 过 先 寻 找 输 
出 为 1 的 行 矢 量 闻 ， 然 后 仅 对 与 大 相连 的 权 和 矩阵 进行 修正 。 使 用 方法 如 下 : 


i=find(A== 1); 
dW =jlearmmk ( W， 了 ， ilr ); 
W=W+dWi 


【 例 6.3 】 用 科 荷 伦 学 习 规则 重新 训练 【 例 6.1 】， 观 察 训练 循环 的 次 数 . 

【 例 6.1 〗 中 采用 内 星 学 习 规则 使 网 络 权 矢 量 识 别 了 输入 矢量 ， 共 花费 了 10 次 循环 ， 
共 480 次 运算 ， 这 并 不 算 多 .不 过 当 采 用 科 荷 伦 学 习 规则 对 其 进行 设计 时 ， 其 计算 量 需要 
得 更 少 . 

采用 设计 训练 内 星 和 外 星 类 似 的 方式 ， 可 以 非常 简单 迅速 地 写 出 主要 的 训练 程序 : 


for epoch = 1 : max_epoch 
forq=1:Q 
A=T(:9) 
i= find(A == 1); 
dW =leamk(W,P(:,qhi'lr); 
W=W+dWwW; 
end 

end 


这 次 , 在 10 次 循环 中 只 用 了 280 次 运算 就 得 到 了 相同 的 结果 ， 这 看 上 去 其 收敛 速率 不 
算 太 快 ， 但 这 仅 是 一 个 内 星 ， 当 网 络 变 得 较 复杂 时 ， 其 功效 就 更 加 明显 了 。 一 般 情 况 下 ， 
科 从 伦 学 习 规 则 比 内 星 学 习 规则 能 够 提高 训练 速度 1 到 2 个 数量 级 ， 


6.2 ” 自 组 织 竞争 网 络 


6.2.1 网络 结构 


竞争 网 络 由 单 层 神经 元 网 络 组 成 ， 其 输入 节点 与 输出 节点 之 间 为 全 互联 结 。 因 为 网 络 
在 学 习 中 的 竞争 特性 也 表现 在 输出 层 上 ， 所 以 在 竞争 网 络 中 把 输出 层 又 称 为 竞争 层 ， 而 与 
输入 节点 相连 的 权 值 及 其 输入 合 称 为 输入 层 。 实 际 上 ， 在 竞争 网 络 中 ， 输 和 人 层 和 竞争 层 的 
加 权 输 入 和 共用 同一 个 激活 函数 ， 如 图 6.3 所 示 。 

竞争 网 络 的 激活 函数 为 二 值 型 {0,1} 函 数 。 
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从 网 络 的 结构 图 中 可 以 看 出 ， 自 组 织 竞争 网 络 的 权 值 有 两 类 : 一 类 是 输入 节点 / 到 : 
的 权 值 wii= 1 2 …s /= 1 2,…,r)， 这 些 权 值 是 通过 训练 可 以 被 调整 的 ; 另 一 类 是 竞 
争 层 中 互相 抑制 的 权 值 wk (K = 1 2, …s )。 这 类 权 值 是 固定 不 变 的 ， 且 它 满足 一 定 的 分 布 
关系 ， 如 上 离 相近 的 抑制 强 ， 上 距离 远 的 抑制 弱 。 另 外 ， 它 们 是 一 种 对 称 权 值 ， 即 有 
Yi = W 有 ， 同 时 相同 神经 元 之 间 的 权 植 起 加 强 的 作用 ， 即 满足 wil = wz =…=Y& >0， 
而 不 同 神经 元 之 间 的 权 值 相互 抑制 ， 对 于 上 关 有 wy <0. 





图 6.3 竞争 网 络 结构 图 


下 面 来 具体 分 析 竞 争 网 络 的 输出 情况 . 

设 网 络 的 输入 矢量 为 : 已 =[ 记 Pa …P 卫 ; 

对 应 网 络 的 输出 矢量 为 : 4 = [aa …as]7. 

由 于 竞争 网 络 中 含有 两 种 权 值 ， 所 以 其 激活 函数 的 加 权 输 入 和 也 分 为 两 部 分 : 来 自 答 
人 节点 的 加 权 输 入 和 N 与 来 自 竞争 层 内 互相 抑制 的 加 权 输 入 和 G 。 具 体 地 说 ， 对 于 第 守 个 
神经 元 有 : 

1 ) 来 自 输 入 节点 的 加 权 输 入 和 为 : 


本 
六 = 
2 ) 来 自 竞 争 层 内 互相 抑制 的 加 权 输 入 和 为 : 
Si = 也 W 克 ak) 
大 6DD 


这 里 忆 表示 竞争 层 中 含有 神经 元 节点 的 某 个 区 域 ， 如 果 表示 的 是 整个 竞争 层 ， 竞 争 
后 只 能 有 一 个 神经 元 兴奋 而 获胜 ; 如 果 竞 争 层 被 分 成 若干 个 区 域 ， 则 竞争 后 每 个 区 域 可 产 
生 一 个 获胜 者 . 

由 于 & 与 网 络 的 输出 值 有关， 而 输出 值 又 是 由 网 络 竞争 后 的 结果 所 决定 的 ， 所 以 8 
的 值 也 是 由 竞争 结果 确定 的 。 为 了 方便 起 见 ， 下 面 以 忆 为 整个 网 络 输出 节点 的 情况 来 分 析 
竞争 层 内 互相 抑制 的 加 权 输 入 和 & 的 可 能 结果 。. 

a) 如 果 在 竞争 后 ， 第 个 节点 “ 启 ” 了 ， 则 有 : 

CEK 二 工 ， 天 = 1 
而 其 他 所 有 节点 的 输出 均 为 零 ， 即 : 
ak = 0， 大 =1, 2, ...，5; 人 尖 
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此 时 
8 = 了 工 wk ac)=wi>0 
天 =1 


b 如 果 在 竞争 后 ， 第 工 个 节点 “ 输 ” 了 ， 而 “ 赢 ”的 节点 为 则 有 : 
ak = 1， 大 = 1/ 
akK =0， 大 =1,2,.. ,5 大 关 ] 
此 时 


8 Wik 了 (ak)=wir <0 


所 以 对 整个 网 络 的 加 权 输 入 总 和 有 下 式 成 立 : 

s =H+W1 对 于 “ 赢 ”的 节点 ! 

Si 三 Mi - wz| 对 于 所 有 ” 输 “ 的 节点 = 1 2,.,S 关 1/ 

由 此 可 以 看 出 ， 经 过 竞争 后 只 有 获胜 的 那个 节点 的 加 权 输 入 总 和 为 最 大 。 竞 争 网 络 的 
输出 为 : 

有 | 5 二 IaX(S LI = 12 83) 
人 其 他 

因为 在 权 值 的 修正 过 程 中 只 修正 输入 层 中 的 权 值 wy ， 竞 争 层 内 的 权 值 wx 是 固定 不 变 
的 ， 它 们 对 改善 竞争 的 结果 只 起 到 了 加 强 或 削弱 作用 ， 即 对 获胜 节点 增加 一 个 正 值 ， 使 其 
更 易 获 肚 ， 对 输出 的 节点 增加 一 个 负 值 ， 使 其 更 不 易 获 胜 ， 而 对 改变 节点 竞争 结果 起 决定 
性 作用 的 还 是 输入 层 的 加 权 和 六 ， 所 以 在 判断 竞争 网 络 节点 胜 负 的 结果 时 ， 可 直接 采用 心 ， 
即 ; 


六 
7 赢 =InaxX( 乙 WP) 
j=1 


取 偏 差 38 为 零 是 判定 竞争 网 络 获胜 节点 时 的 典型 情况 ， 偶 而 也 采用 下 式 进行 竞争 结果 
的 判定 : 


7 赢 二 Iax( 二 VDJ+p，-1<Dp<0 
7=1 


典型 的 值 取 -0.95 。 加 上 ， 值 意味 着 取 吕 = - |wl| 这 一 最 坏 的 情况 ， 

通过 上 面 分 析 ， 可 以 将 竞争 网 络 的 工作 原理 总 结 如 下 : 竞争 网 络 的 激活 函数 使 加 权 输 
人 和 为 最 大 的 节点 赢得 输出 为 1 , 而 其 他 神经 元 的 输出 皆 为 0 .这 个 竞争 过 程 可 用 MATLAB 
描述 如 下 : 


nm = Wy#kP; 
[SQ ] = size (D); 
和 =n+b#kones (1,Q ); 
y= PaX (9; 
forq= 1Q 
z=fnd(x (9 一 yd) 多 找 出 最 大 加 权 输 入 和 y(g) 所 在 的 行 ; 
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a(z(1)9) = 1; 名 令 元 素 a(z,q) = 1， 其 他 值 为 零 ; 


end 


站 
的 方式 来 调用 它 即 可 得 到 竞争 网 络 的 输出 值 : 


A= compet( W#+P,B ); 


6.2.2 ”竞争 学 习 规则 


竞争 网 络 在 经 过 竞争 而 求 得 获胜 节点 后 ， 则 对 与 获胜 节点 相连 的 权 值 进行 调整 ， 调 整 
权 值 的 目的 是 为 了 使 权 值 与 其 输入 矢量 之 间 的 差别 越 来 越 小 ， 从 而 使 训练 后 的 竟 争 网 络 的 
权 值 能 够 代表 对 应 输入 矢量 的 特征 ， 把 相似 的 输入 矢量 分 成 了 同一 类 ， 并 由 输出 来 指示 所 
代表 的 类 别 。 

竞争 网 络 修正 权 值 的 公式 为 : 

Awi = 六 (Pi -ww7) 1: 

式 中 必 为 学 习 速 率 ， 且 0< 六 <1 ， 一 般 的 取 值 范围 为 0.01 ~ 0.3 ; 户 为 经 过 归 一 化 处 
理 后 的 输 人 。 

用 MATLAB 工具 箱 来 实现 上 述 公 式 的 过 程 可 以 用 内 星 学 习 规则 : 


A=compet( WP ); 
dW =learnis (P, A, rwW ); 
W=W+dWi 
更 省 时 地 是 采用 科 荷 伦 学 习 规则 如 下 : 
A= compet(Wr#P ); 
i=fnd(A== 1 ); 


dW =1learmis (P,i,lrW ); 
W=W+dW， 


不 论 采用 哪 种 学 习 方 法 ， 层 中 每 个 最 接近 输入 矢量 的 神经 元 ， 通 过 每 次 权 值 调整 而 使 


权 值 矢量 逐渐 趋 于 这 些 输入 矢量 。 从 而 竞争 网 络 通过 学 习 而 识别 了 在 网 络 输入 端 所 出 现 的 
矢量 ， 并 将 其 分 为 某 一 类 . 


6.2.3 ”竞争 网 络 的 训练 过 程 


和 弄 懂 网 络 的 训练 过 程 是 为 了 更 好 地 设计 出 网 络 。 


一 121 一 





因为 只 有 与 获胜 节点 相连 的 权 值 才能 得 到 修正 ， 通 过 其 学 习 法 则 使 修正 后 的 权 值 更 加 
接近 其 获胜 输入 矢量 。 结 果 是 ， 获 胜 的 节点 对 将 来 再 次 出 现 的 相似 矢量 (能 被 偏差 所 包 
容 ， 或 在 偏差 范围 以 内 的 )， 更 加 容易 赢得 该 节点 的 胜利 。 而 对 于 一 个 不 同 的 矢量 出 现时 ， 
就 更 加 不 易 取胜 ， 但 可 能 使 其 他 某 个 节点 获胜 ， 归 为 另 一 类 矢量 群 中 。 随 着 输入 矢量 的 重 
复出 现 而 不 断 地 调整 与 胜 者 相连 的 权 矢量 ， 以 使 其 更 加 接近 于 某 一 类 输入 矢量 。 最 终 ， 如 
果 有 足够 的 神经 元 节点 ， 每 一 生生 和 估量 丰 同人 革 下 局 站 征 由 全 而 村 入 区 通过 重 
复 训练 ， 自 组 织 竞争 网 络 将 所 有 输入 矢量 进行 了 分 类 。 

所 以 竞争 网 络 的 学 习 和 训练 过 程 ， 实际 上 是 对 输入 拓 量 的 划分 于 类 过 程 ， 合 得 获胜 节 
点 与 输入 矢量 之 间 的 权 矢 量 代表 获胜 输入 矢量 . 

这 样 ， 当 达到 最 大 循环 的 值 后 ， 网 络 已 重复 多 次 训练 了 尸 中 的 所 有 矢量 ， 训练 结束 后 ， 
对 于 用 于 训练 的 模式 已 ， 其 网 络 输出 矢量 中 ， 其 值 为 1 的 代表 一 种 类 型 ， 而 每 类 的 典型 模 
式 值 由 该 输出 节点 与 输入 节点 相连 的 权 矢 量 表示 。 

竞争 网 络 的 输入 层 节 点 上 是 由 已 知 输入 矢量 决定 的 ， 但 竞争 层 的 神经 元 数 s 是 由 设计 
者 确定 的 ， 它 们 代表 输入 矢量 可 能 被 划 为 的 种 类 数 ， 其 值 若 被 选 得 过 少 ， 则 会 出 现 有 些 输 
人 矢量 无 法 被 分 类 的 不 良 结果 ， 但 若 被 选 得 太 大 ， 竞 争 后 可 能 有 许多 节点 都 被 空 奋 ， 而 且 
在 网 络 竞争 过 程 中 还 占用 了 大 量 的 设计 量 和 时 间 ， 在 一 定 程度 上 造成 了 一 定 的 浪费 ， 所 以 
一 般 情 况 下 ， 可 以 根据 输入 矢量 的 维 数 及 其 估计 ， 再 适当 地 增加 些 数目 来 确定 。 

另外 还 要 事先 确定 的 参数 有 : 学 习 速 率 和 最 大 循环 次 数 。 竞 争 网 络 的 训练 是 在 达到 最 
大 循环 次 数 后 停止 ， 这 个 数 一 般 可 取 输 入 矢量 数组 的 15~20 倍 ， 即 使 每 组 输 人 矢量 能 够 在 
网 络 重复 出 现 15~20 次 。 

竞争 网 络 的 权 值 要 进行 随机 归 一 化 的 初始 化 处 理 ， 这 个 过 程 在 MATLAB 中 用 天 数 
randnr.m 实现 : 


W =randnr(S,R); 


然后 网 络 则 可 以 进 和 人 竞争 以 及 权 值 的 调整 阶段 . 

网 络 的 训练 全 过 程 完全 由 计算 机 去 做 ， 工 具 箱 中 的 竞争 网 络 训练 函数 为 traincm ， 调 
用 时 所 需要 的 参数 为 : 初始 权 和 矩阵  ， 输 入 矩阵 已 和 具有 三 个 训练 参数 的 行 矢量 : 显示 循 
环 的 频率 disp_freq ， 最 大 的 训练 次 数 max_cycle 以 及 学 习 速 率 fr ， 它 的 用 法 如 下 : 


TP = [disp_freq imax_cycle 1r ]; 
W =trainc( W,P, TP ); 


竞争 网 络 比较 适合 用 于 具有 大 批 相似 数组 的 分 类 问题 。 下 面 给 出 例题 来 说 明 竞 争 网 络 
的 功效 . 
【 例 6.4 〗 对 下 列 模式 尸 进行 分 类 辨识 。 


书 = [0.7071 0.6402 0.000 -0.1961 0.1961 -0.9285 -0.8762 -0.8192 ; . 
0.7071 0.7682 -1.000 -0.9806 -0.9806 0.3714 0.4819 0.5735 ]; 
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解 : 
输入 模式 己 已 经 为 归 一 化 处 理 后 的 数据 。 对 于 网 络 结构 ， 我 们 取 S$=4 ; 根据 : 


W0= Irandnr(S,R) ; 


随机 取 一 组 初始 矩阵 为 : 
W0= [-0.3347 -0.9413; 
-0.5466 -0.8374; 
-0.8690 -0.4948; 
0.4611 -0.8874]; 
另 取 : 


kr = 0.05; 
Iax_epoch = 320; 
这 里 取 了 输入 数据 的 20 倍 。 最 大 循环 数 一 般 应 根据 输入 数据 的 多 少 来 决定 。 
(1 ) 训练 竞争 

为 了 能 够 更 清楚 地 理解 训练 竞争 过 程 ， 我 们 仍 可 以 通过 图 解法 来 解释 。 和 感知 器 的 分 
类 方式 类 似 ， 二 值 型 分 类 的 实质 是 通过 将 输入 矢量 空间 进行 分 割 而 达到 分 类 目的 。 在 此 ， 
我 们 用 横 纵 坐标 分 别 表示 户 和 户 矢 量 . 与 感知 器 的 不 同 的 是 , 竞争 网 络 所 用 的 矢量 模 为 1 ， 
所 以 矢量 的 变化 ， 在 坐标 上 形成 的 轨迹 为 以 原点 为 中 心 的 单位 圆 ， 网 络 竞争 的 目的 ， 是 使 
权 值 太 经 过 竞争 后 逐渐 移动 到 能 够 代表 输 和 人 矢量 类 别 的 点 上 ( 也 处 于 单位 圆 上 ) . 

在 训练 过 程 中 ， 当 第 一 次 出 现 输入 矢量 比如 严 时 ， 有 Wy =p，!LE97 = 12, or。 
但 当 严 出 现时 ， 若 也 具有 与 Wy 相似 的 特性 。 则 通过 对 Wy 的 修正 ， 使 Wy 倾 向 天， 当下 一 
次 记 再 次 输入 时 ， Wy 又 被 修正 得 移 向 P .。 这样， 经 过 多 次 训练 后 ， Wy 所 得 的 结果 为 几 
个 相同 类 型 输入 模式 的 平均 值 ， 而 当 一 个 不 同类 型 的 模式 输入 ， 将 使 竞争 网 络 中 的 其 他 节 
点 获胜 而 得 到 一 个 新 的 权 和 矩阵 。 如 此 重复 ， 可 以 将 所 有 的 不 同类 型 的 模式 都 育 集 到 相同 的 
权 和 矩阵 下 ， 每 个 权 和 矩阵 代表 一 种 类 型 ， 而 输出 矢量 中 的 1 的 列 位 置 则 指出 与 此 节点 相连 的 
权 多 量 所 代表 的 输入 矢量 组 的 位 置 。 图 6.5 给 出 最 后 的 训练 结果 ， 图 中 权 矢 量 位 置 是 用 

“5o ”来 表示 的 
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图 6.4 ”竞争 前 的 权 矢 量 位 置 图 ”图 6.5 竞争 结束 后 的 权 矢 量 位 置 图 ， 
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本 例题 经 过 320 次 循环 后 得 到 最 后 结果 为 : 
W='f -0.0460 -0.9863; 

-0.5466 -0.8374; 

-0.8748 “0.4747; 


0.6684 0.7180]: 
在 输入 模式 已 作用 下 的 网 络 输出 为 : 
A=f[00111000; 一 1 类 (第 3、4、5 列 输入 矢量 组 属于 同一 类 ) 
00000000;， 一 空缺 
00000111; 一 3 类 (第 6、7、8 列 输入 矢量 组 属于 同一 类 ) 


11000000];， 一 4 类 (第 1、2 列 输入 矢量 组 属于 同一 类 ) 


将 克 值 与 前 面 WO 相 比 较 可 以 看 出 ， 第 二 行 的 值 与 初始 WO 值 完全 相同 ， 即 在 整个 竞 
争 训练 中 ， Wz 从 未 获得 过 胜利 ， 所 以 其 权 和 矩阵 一 次 也 没有 得 到 过 修正 ， 这 从 4 的 输出 值 
上 看 得 很 清楚 : 当 疡 、 己 输入 时 ， 输 出 节点 4 获胜 ， 即 它们 属于 xi 类 ; WA 可 代表 它们 
的 值 ， 声 、 严 和 声 属 第 一 类 ， 7 是 他 们 三 个 的 代表 ， 下、 己 和 严 同 属 第 3 类 ，Wy 
反映 了 它们 的 特点 

(2) 竞争 学 习 网 络 的 局 限 性 

竞争 网 络 适 用 于 当 具 有 典型 聚 类 特性 的 大 量 数据 的 辨识 ， 但 当 还 到 大 量 的 具有 概率 分 
布 的 输入 矢量 时 ， 竞 争 网 络 就 无 能 为 力 了 ， 这 时 可 以 采用 科 荷 伦 网 络 来 解决 。 


6.3 ” 科 荷 伦 自 组 织 映 射 网 络 


神经 细胞 模型 中 还 存在 着 一 种 细胞 聚 类 的 功能 柱 。 它 是 由 多 个 细胞 聚合 而 成 的 ， 在 接 

受 外 界 刺激 后 ， 它 们 会 自动 形成 。 一 个 功能 柱 中 的 细胞 完成 同一 种 功能 。 
”生物 细胞 中 的 这 些 现 象 在 科 荷 伦 网 络 模型 中 有 所 反映 。 当 外 界 输入 不 同 的 样本 到 科 荷 
伦 自 组 织 轴 射 网 络 中 ， 一 开始 时 输 和 人 样本 引起 输出 兴奋 的 位 置 各 不 相同 ， 但 通过 网 络 自 组 
织 后 会 形成 一 些 输出 群 ， 它 们 分 别 代表 了 输入 样本 的 分 布 ， 反 映 了 输入 样本 的 图 形 分 布 特 
征 ， 所 以 科 荷 伦 网 络 常常 被 称 为 特性 图 ， 

科 荷 伦 网 络 使 输入 样本 通过 竞争 学 习 后 ， 功 能 相同 的 输入 靠 得 比 较 近 ， 不 同 的 分 得 比 
较 开 ， 以 此 将 一 些 无 规则 的 输入 自动 排 开 ， 在 联接 权 的 调整 过 程 中 ， 使 权 的 分 布 与 输入 样 
本 的 概率 密度 分 布 相似 。 所 以 科 荷 伦 网 络 可 以 作为 一 种 样本 特征 检测 器 ， 在 样本 排序 、 样 
本 分 类 以 及 样本 检测 方面 有 广泛 地 应 用 。 

一 般 可 以 这 样 说 ， 科 荷 伦 网 络 的 权 矢量 收敛 到 所 代表 的 输入 矢量 的 平均 值 ， 它 反映 了 
输入 数据 的 统计 特性 。 再 扩大 一 点 ， 如 果 说 一 般 的 竞争 学 习 网 络 能 够 训练 识别 出 输入 矢量 
的 点 特征 ， 那 么 科 丛 伦 网 络 能 够 表现 出 输入 矢量 在 线 上 或 平面 上 的 分 布 特征 。 

当 随 机 样本 输入 到 科 荷 伦 网 络 时 ， 如 果 样 本 足够 多 ， 那 么 在 权 值 分 布 上 可 近似 于 输入 
随机 样本 的 概率 密度 分 布 ， 在 输出 神经 元 上 也 反映 了 这 种 分 布 ， 即 概率 大 的 样本 集中 在 给 
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出 空间 的 某 一 个 区 域 ， 如 果 输 入 的 样本 有 几 种 分 布 类 型 ， 则 它们 各 自 会 根据 其 概率 分 布 集 
中 到 输出 空间 的 各 个 不 同 的 区 域 。 每 一 个 区 域 代表 同一 类 的 样本 ， 这 个 区 域 可 逐步 缩 少 ， 
使 区 域 的 划分 越 来 越 明显 。 在 这 种 情况 下 ， 不 论 输 入 样本 是 多 少 维 的 ， 都 可 投影 到 低 维 的 
数据 空间 的 某 个 区 域 上 。 这 种 形式 也 称 为 数据 压缩 。 同 时 ， 如 果 高 维 空间 中 比较 相近 的 样 
本 ， 则 在 低 维 空间 中 的 投影 也 比较 相近 ， 这 样 就 可 以 从 中 取出 样本 空间 中 较 多 的 信息 . 遗 
憾 的 是 ， 网 络 在 高 维 了 映射 到 低 维 时 会 出 畸变 ， 且 压缩 比 越 大 ， 畸 变 越 大 ， 另 外 网 络 要 求 的 
输 人 节点 数 很 大 ， 因 而 科 荷 伦 网 络 比 其 他 人 工 神经 网 络 ( 如 网 络 BP 网 络 ) 的 规模 要 大 。 


6.3.1 “ 科 人 荷 伦 网 络 拓扑 结构 


科 荷 伦 网 络 结构 也 是 两 层 : 输入 层 和 竞争 层 。 与 基本 竞争 网 络 不 同 之 处 是 其 竞争 层 可 
以 由 一 维 或 二 维 网 络 和 矩阵 方式 组 成 ， 且 权 值 修正 的 策略 也 不 同 . 

1 ) 一 维 网 络 结构 与 基本 竞争 学 习 网 络 相同 ; 

2 ) 二 维 网 络 结构 ， 如 图 6.6 所 示 ， 网 络 上 层 有 输出 节点 * 个 ， 按 二 维 形式 排 成 一 个 节 
点 矩阵 ， 输 入 节点 处 于 下 方 ， 有 ~ 个 矢量 ， 即 > 个 节点 ， 所 有 输入 节点 到 所 有 输出 节点 之 





疡 ; 7 
图 6.6” 三 维 科 荷 伦 网 络 结构 图 


(1) 
(2) 
(3) 
(4) 
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(0 一 主神 经 元 ; (2) 一 邻 层 ; (3) 一 邻 层 2; (4) 一 邻 层 3 
图 6.7 二 维 神经 元 层 示意 图 


科 荷 伦 网 络 的 激活 函数 为 二 值 型 函数 。 一 般 情况 下 值 固定 ， 其 学 习 方法 与 普通 的 竞 
争 学 习 算法 相同 。 在 竞争 层 中 ， 每 个 神经 元 都 有 自己 的 邻 域 ， 图 6.7 为 一 个 在 二 维 层 中 的 
主神 经 元 ， 主 神经 元 具有 在 其 周围 增加 直径 的 邻 域 。 一 个 直径 为 1 的 邻 域 包括 主神 经 及 它 
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的 直接 周围 神经 元 所 组 成 的 区 域 ; 直径 为 2 的 邻 域 包括 直径 1 的 神经 元 以 及 它们 的 邻 域 . 
图 中 主神 经 元 的 位 置 是 通过 从 左上 端 第 一 列 开始 顺序 从 左 到 右 ， 从 上 到 下 找到 的 。 如 图 中 
的 10 x 10 神 经 元 层 ， 其 主神 经 元 位 于 46 . 

特性 图 的 激活 函数 也 是 二 值 型 函数 ， 同 竞争 网 络 一 样 可 以 取信 为 零 或 固定 为 一 党 
数 。 竞 争 层 的 竞争 结果 ， 不 仅 使 加 权 输 入 和 为 最 大 值 者 获胜 而 输出 为 1 ， 同 时 也 使 获胜 节 
点 周围 的 邻 域 也 同时 输出 为 1 。 另 外 ， 在 权 值 调整 的 方式 上 ， 特 性 图 网 络 不 仅 调整 与 获胜 
节点 相连 的 权 值 ， 而 且 对 获胜 节点 邻 域 节点 的 权 值 也 进行 调整 ， 即 使 其 周围 2x 的 区 域内 神 
经 元 在 不 同 程度 上 也 得 到 兴奋 ， 在 De 以 外 的 神经 元 都 被 抑制 ， 这 个 Dr 区 域 可 以 是 以 获胜 
节点 为 中 心 的 正方 形 ， 也 可 以 为 六 角形 ， 如 图 6.8 所 示 。 对 于 一 维 输出 ， 疡 则 为 以 上 为 中 
心 的 下 上 邻 点 。 


Ooooooeo 
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人 正方 形 区 域 @) 六 角形 区 域 
图 6.8 ”二 维 网 络 邻 域 形状 


在 MATLAB 工具 箱 中 有 一 个 求 获胜 神经 元 的 邻 域 的 函数 , 它 所 需要 的 参数 为 : 获胜 神 
经 元 位 置 ; ， 竞 争 层 的 大 小 和 邻 域 的 直径 N ( 如果 Np 被 省 去 ， 意 味 着 直径 为 1 ) ， 邻 域 函 
数 返回 一 个 行 矢量 ， 包 括 Np 直径 邻 域 中 的 所 有 神经 元 ， 其 中 包括 主神 经 元 本 身 在 内 。 

在 二 维 竞争 层 中 ， 邻 域 函数 为 neighb2d.m ， 竞 争 层 的 大 小 是 其 宽度 和 和 高 度 了 7 ， 层 中 
神经 元 总 数 8 应 当 是 居 与 了 的 乘积 。 苯 数 neighb2d.m 的 用 法 如 下 : 


NP =[XY]; 
in = neighb2d (iNPN); 


对 于 一 维 竞争 层 ， 其 中 的 邻 层 函数 为 ndighbldm ， 人 
数 $， 即 


Np=[S ]: 
in = neighbld (iNPN); 


除了 正方 形 以 外 ， 我 们 可 以 用 函数 neighb2d.m 产生 一 个 具有 任意 形状 的 邻 层 . 此 时 ， 


对 新 邻 域 郴 数 的 唯一 限制 是 变量 列表 必须 与 上 述 两 个 函数 相同 。 不 过 ， 邻 层 函 数 的 行 矢量 
可 以 包含 任何 常数 . 
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6.3.2 网 络 的 训练 过 程 


科 荷 伦 网 络 在 训练 开始 时 和 普通 的 竞争 网 络 一 样 ， 其 输入 节点 竞争 的 胜利 者 代表 某 类 
模式 。 然 后 定义 获胜 节点 的 邻 域 节点 ， 即 以 获胜 节点 为 中 心 的 某 一 半径 内 的 所 有 节点 ， 并 
对 与 其 相似 的 权 和 矩阵 进行 调整 。 随 着 训练 的 继续 进行 ， 获 胜 节点 大 的 半径 将 逐渐 变 小 ， 直 
到 最 后 只 包含 获胜 节点 上 本 身 。 也 就 是 说 ， 在 训练 的 初始 阶段 ，, 不 但 对 获胜 的 节点 作 权 值 
的 调整 ， 而 且 对 其 周围 较 大 范围 内 的 几何 邻接 节点 也 作 相 应 的 调整 ， 而 随 着 训练 过 程 的 进 
行 ， 与 获胜 输出 节点 相连 的 权 和 矩阵 就 越 来 越 接近 其 所 代表 的 模式 类 ， 此 时 ， 需 要 对 获胜 节 
点 进行 较 细致 的 权 和 矩阵 调整 . 同时 ， 只 对 其 几何 邻接 较 接 近 的 节点 进行 相应 的 调整 这样， 
在 训练 结束 后 ， 几 何 上 相近 的 输出 节点 所 连接 的 权 矢 量 既 有 联系 ( 即 类 似 性 )， 又 相互 有 区 
别 ， 保 证 了 对 于 某 一 类 输入 模式 、 获 胜 节点 能 作出 最 大 的 响应 。 而 相 邻 节点 作出 较 少 响应 。 
几何 上 相 邻 的 节点 代表 特征 上 相似 的 模式 类 别 . 

特性 图 四 浊 的 入 全 般 被 设置 得 很 小 ， 例如 初始 化 一 个 特性 图 用 尺 个 输入 和 8 个 神经 
元 的 过 程 可 为 ; 

Wz=rtandnt(S,R)*0.1， 

赐 上 可 知 ， 特 性 图 不 同 于 常规 竞争 学 习 网 络 那样 修正 其 权 值 ， 除 了 修正 获胜 权 值 外 ， 
特性 图 还 修正 它 的 邻 域 权 值 。 人 并 对 相似 的 
输入 矢量 作出 四 应 . 

训练 设计 步骤 (适用 于 输入 矢量 忆 具有 某 种 概率 分 布 的 数组 ) : 

(1 ) 初始 化 

1 ) 由 输入 矢量 确定 网 络 结构 : [RQ] = size(P); 

2 ) 设置 网 络 竞争 层 神经 元 节点 : 一 维 $ 或 二 维 的 宽 X 和 高 站 ， S=XyY ; 

3 ) 将 输入 模式 P 作 归 一 化 处 理 :: P= norme(GP); 

4 ) 归 一 随机 化 处 理 初始 权 值 : W =rands(SR)*0.1 ; 并 设置 : 

5 ) 最 大 循环 次 数 (此 数 根据 输入 数据 的 数目 而 乘 一 个 倍数 所 得 ) : max_cycle; 

6 ) 基本 学 习 速率 Ir: 一 般 取 0.01 ~ 0.3, 视 具 体 情 况 而 定 ; 

7 ) 最 人 邻居 数 : max_neighb: 一 维 max_neighb = S - ]1; 

二 维 max_ neighb = max ([X Y]) - 1 
(2) 特 环 训练 


for cycle = 1: max 0 
1 ) 学 习 速率 是 线性 下 降 的 : 


大 二 本 二 
LR= (1 -X )#]lr; 


这 使 得 学 习 速 率 随 着 循环 次 数 的 增加 ， 从 rt(max_cycle-D/max_cycle 逐渐 降 至 0 
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2 ) 邻 层 数 也 是 递减 的 : 
n = max([ceil(max_neighb#(1- 人 1]); 
“3 ) 计算 输入 矢量 加 权 和 ， 并 通过 吉 争 求 出 获胜 节点 : 


A= compet(W*P); 
4) 根据 获胜 节点 求 出 相 邻 层 (以 二 维 为 例 ) ， 并 进行 权 值 修正 : 


i= find(A ===]1); 
in = neighb2dGi,XY]nD， 
dW =]learnk(W,P,in,LR); 
W=W+dwWi; 


(3 ) 输出 或 显示 结果 

在 训练 过 程 中 ， 神 经 元 参与 彼此 的 竞争 活动 ， 而 具有 最 大 输出 的 神经 元 节点 是 获胜 者 , 
该 获胜 节点 具有 抑制 其 他 竞争 者 和 激活 其 近邻 节点 的 能 力 ， 但 是 只 有 获胜 节点 才 允 许 有 输 

也 只 有 获胜 者 和 其 邻近 节点 的 权 值 允 许 被 调节 。 获 胜 者 的 近邻 节点 的 范围 在 训练 过 程 
中 是 可 变 的 .在 训练 开始 时 ， 一 般 将 邻近 范围 取得 较 大 ， 随 着 训练 的 进行 ， 其 邻近 范围 逐 
渐 缩小 。 因 为 只 有 获胜 节点 是 输入 图 形 的 最 佳 匹 配 ， 所 以 说 科 荷 伦 网 络 模仿 了 输入 图 形 的 
分 布 ， 或 者 说 该 网 络 能 提取 输入 图 形 的 特征 ， 把 输入 图 形 特 征 相似 地 分 到 一 类 ， 由 某 一 获 
胜 节 点 表示 。 

MATLAB 工具 箱 中 用 于 训练 设计 科 荷 伦 网 络 权 矢量 的 函数 为 trainfm.m ， 它 能 执行 上 
述 的 训练 步骤 的 全 过 程 ， 仅 需要 给 它 输 入 4 个 训练 参数 ; 显示 频率 disp_freq ， 最 大 训练 周 
期 max_cycle ， 学 习 速 率 Ir 以 及 最 大 邻 域 数 max_neighb : 


TEF = [disp, freq max_cycle lr max_neighb ]; 
W =trainfim (W,P, IF ); 


最 大 邻 域 数 应 设置 为 层 的 最 大 直径 数 减 去 1 。 例 如 ， 对 一 维特 性 图 max_neighb 应 为 S 
- 1 ; 对 二 维特 性 图 ， 其 层 神经 元 宽 为 X 高 为 了 时 ， max_neighb 应 当 等 于 两 者 中 的 较 大 值 
减 去 1 . 不论 哪个 神经 元 被 选 为 主神 经 元 ， 最 大 邻 域 数 总 是 包括 了 层 中 的 所 有 神经 元 

函数 trainfm.m 的 训练 开始 于 学 习 速 度 r 和 最 大 邻 域 max_neighb ， 然 后 ， 其 学 习 速率 
线性 地 递减 ， 以 致 于 最 后 的 训练 周期 里 的 学 习 速率 为 0 。 邻 域 数 也 是 线性 地 减少 ， 但 在 达 
到 四 分 之 一 训练 周期 后 ， 其 值 保持 为 最 大 值 1 直到 最 终 训练 结束 . 

这 种 安排 允许 输出 神经 元 在 初始 阶段 的 活动 范围 较 大 ， 并 使 其 全 体 都 趋 于 输入 矢量 出 
现 的 区 域 。 然 后 ， 随 着 邻 层 的 减少 至 1 ， 图 形 趋 于 所 出 现 的 输入 矢量 的 自身 .一 旦 邻 域 大 
小 为 1 ， 图 形 则 已 被 很 好 地 排 了 序 。 学 习 速率 也 是 在 一 个 较 长 的 时 间 里 进行 衰减 ， 以 给 神 
经 元 足够 的 时 间 展 开 。 

如 果 输 入 矢量 是 以 遍历 整个 输入 空间 的 概率 出 现 ， 特 性 图 训练 的 最 终结 果 将 是 以 接近 
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于 输入 矢量 之 间 等 距离 的 位 置 排列 ; 如 果 输 人 矢量 是 以 遍历 输入 空间 的 变化 频率 出 现 ， 特 
性 图 将 趋 于 将 神经 元 定位 为 一 个 正比 于 输入 矢量 频率 的 面积 。 由 此 ， 特 性 图 通过 被 训练 ， 
能 够 学 习 输 入 矢量 的 类 型 与 其 贡献 的 大 小 ， 而 将 其 分 类 ， 

给 定 一 个 特性 图 的 权 和 矩阵 太 ， 它 的 邻 域 本 数 己 人 以 及 竞争 层 大 小 
Np ， 可 以 用 函数 plotmap.m 画 出 特性 图 . 

下 面 给 出 有 关 特 性 图 的 应 用 实例 ， 从 中 可 以 看 出 特性 图 是 如 何 被 训练 设计 的 . 

【 例 6.5 〗】 有 100 个 输入 矢量 均匀 地 分 布 在 单位 圆 从 0 度 到 90 度 的 圆周 上 ， 试 设计 训 

练 一 个 特性 图 将 其 取而代之 。 

解 : 

根据 题 意 ， 输 入 矢量 可 定义 可 为 : 


angles = 0:0.53kpi/99:0.S*#Ppii 
P = [sin(angles); cos(angles)]; 


输入 矢量 如 图 6.9 所 示 。 





PO 
图 69 输入 矢量 图 
所 设计 科 符 伦 网 络 为 一 维特 性 图 ， 取 竞争 层 神经 元 数 为 20 ， 所 以 取 neighbld.m 函数 
来 训练 ， 并 用 本 数 trainfm.m 进行 训练 ， 特 性 图 将 被 训练 400 次 ， 初 始 学 习 速 率 为 0.3 ， 最 
大 邻 域 为 S - 1 ， 训 练 程 序 如 下 : 


[R,Q] = size(P); 

S= 20; 

W0= rands(S,R)*0.1; 
disp_freq = 4; 
max_cycle = 400;， 
IT= 03; 

inax_neighb = S - 1; 
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TF = [disp_freq max_cycle lr max_neighb ]; 
W =tainfm ( W0,P'neighbld',S,TEF ); 


”图 6.10 给 出 用 函数 plotmap(W0, neighbld',S) 画 出 的 原始 随机 权 值 的 特性 图 ， 其 中 ,每 
个 神经 元 的 权 矢量 被 表示 为 单位 圆 中 的 一 个 点 ， 每 个 点 通过 一 条 线 与 其 邻 域 点 相连 ， 小 的 
随机 初始 权 矢 量 导 致 在 加 中 心 附近 无 序 的 图 形 。 

当 训练 开始 后 ， 权 矢量 开始 一 起 朝 着 输入 矢量 的 位 置 移动 ， 并 随 着 邻 域 范围 的 减少 ， 
权 矢 量 之 间 也 逐渐 变 得 有 序 起 来 。 随 着 训练 的 继续 ， 神 经 元 层 的 权 矢 量变 得 越 来 越 有 序 ， 
且 逐 渐 材 盖 了 整个 输入 矢量 的 位 置 .典型 的 训练 50 次 和 100 次 的 结果 图 如 图 6.11 和 图 6.12 
所 示 。 
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环 企 力 zt 
图 6.12 训练 100 次 后 的 特性 图 图 6.13 训练 结束 后 的 特性 图 
在 训练 400 次 后 ， 神 经 元 层 已 基本 调整 好 了 自身 的 权 矢 量 ， 能 够 使 每 一 个 神经 元 响应 
输入 的 矢量 所 在 的 一 个 小 区 域 , 并 通过 邻 域 完成 了 用 20 个 神经 元 联系 了 100 个 元 素 的 特性 
图 功能 。 从 最 后 的 训练 结果 图 6.13 可 以 看 出 ， 由 于 输入 矢量 是 均匀 分 布 ， 获 胜 节点 输出 :1 
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的 分 布 ， 也 是 随 着 输入 矢量 出 现 的 先后 顺序 逐渐 均匀 变化 的 。 经 过 网 络 训练 和 权 矢 量 调整 ， 
随机 的 初始 权 矢 量 逐 渐 向 第 一 象限 的 单位 圆周 上 移动 , 最 终 20 个 权 矢 量 均匀 地 分 布 在 四 分 
之 一 圆周 上 ， 替 代 了 100 个 输入 矢量 . 
【 例 6.6 〗 有 2 000 个 二 元 随机 输入 样本 产生 一 个 平方 面积 为 0.3。0.5 的 覆盖 区 域 ， 试 

用 科 荷 伦 网 络 取代 之 。 

解 : 

根据 题 意 可 将 输入 矢量 用 下 列 函 数 产 生 : 
P = rands(2, 2000)*0.5; 

但 是 ， 特 性 图 中 的 输入 矢量 必须 是 单位 长 度 ， 而 现在 所 有 的 输入 矢量 的 幅 值 小 于 1 ， 
所 以 可 以 通过 对 输入 矢量 再 加 上 第 三 个 元 素 ， 使 之 与 原始 两 个 元 素 组 成 的 新 的 输入 矢量 具 
有 单位 !1 的 模 值 ， 这 个 过 程 可 以 用 函数 pnormc.m 来 完成 : 

P = pnormc(P); 

图 6.14 是 由 归 一 化 后 的 输入 矢量 的 前 两 个 元 素 产生 的 输入 图 形 ， 也 是 用 我 们 感 兴趣 的 
输入 矢量 画 出 的 输入 矢量 平面 图 .增加 的 一 个 元 素 已 使 输入 变 成 了 三 维 空间 ， 但 我 们 所 感 
兴趣 的 仍然 是 二 维 平面 里 的 输入 矢量 ， 

下 面 进行 有 关 参 数 的 选择 和 初始 化 工作 : 


X=S$;Y=S;S= 及 *Y 

R,Q] = size(P); 

W0 = Irands(S,R)*0.1; 
plotmap(W0,neighb2d“,[XY]); 


一 个 典型 的 初始 权 矢量 图 如 图 6.15 所 示 。 
和 你 





P0 71) CD 
图 6.14” 归 一 化 后 的 输入 矢量 图 形 图 6.15 初始 权 矢 量 图 


若 取 训 练 次 数 为 4 000 次 ， 训 练 主 程序 如 下 : 
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disp_freq = 25; 

Iax_cycle = 4000; 

Ir = 0.025; 

Iax_neighb = max([XY]) - 1; 

TFE= [disp_freq max_cycle lrmax_neighb ]; 
W =trainfim ( W0, P, "neighb2d',[XY],TF ); 


随 着 训练 的 进行 ， 所 有 神经 元 权 矢量 均 朝 着 输入 矢量 的 中 心 移动 ， 并 逐渐 地 在 输入 矢 
量 的 位 置 上 排序 ， 图 6.16 和 图 6.17 分 别 给 出 了 在 800 次 和 4 000 次 训练 后 的 特性 图 。 





图 6.16 训练 800 次 后 的 特性 图 图 6.17 训练 4000 次 后 的 特性 图 


注意 ， 最 后 的 图 形 并 不 特别 光滑 .当然 可 以 替换 其 他 更 大 的 训练 次 数 来 更 进一步 训练 
网 络 。 有 时 特性 图 在 其 训练 中 也 会 出 现 麻 烦 ， 比 如 产生 来 会 摆动 而 使 其 扩展 延伸 停止 ， 这 
时 可 以 通过 增加 训练 次 数 来 加 以 避免 ， 学 习 速 率 太 小 也 可 能 是 其 原因 之 一 ， 不 过 太 大 的 学 
习 速率 可 能 导致 不 稳定 。 实 际 上 ， 几 乎 所 有 可 能 出 现 的 问题 ， 均 能 够 通过 采用 更 多 的 训练 
次 数 来 加 以 解决 . 人 


6.4 对 传 网 络 


对 传 网 络 (Counter Propagation Network， 简 称 CPN ) 是 美国 学 者 Hechi-Nielson 在 1987 
年 首次 提出 的 。 从 结构 上 看 ， CPN 是 一 种 层次 结构 的 网 络 ， 实 际 上 ， CPN 是 把 两 种 著名 
的 网 络 算法 ; 科 荷 伦 自 组 织 映 射 理论 与 格 劳 斯 贝 格外 星 算法 组 合 起 来 而 形成 的 网 络 。 


6.4.1 网 络 结构 
CPN 网 络 为 两 层 结 构 : 第 一 层 为 科 荷 伦 层 ， 采 用 无 指导 的 训练 方法 对 输入 数据 进行 自 
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组 织 竞 争 的 分 类 或 压缩 ， 第 二 层 称 为 格 劳 斯 贝 格 层 。 
第 一 层 的 激活 函数 为 二 值 型 硬 函 数 ， 而 第 二 层 为 线性 激活 函数 。. 
1 ) 对 于 科 荷 伦 层 的 输出 有 : 
汪 开 = 天 IJ*(WI*P+ 有 1D) 二 
2 ) 对 于 格 劳 斯 贝 格 层 ， 具 有 目标 矢量 G ， 此 时 ， 从 前 层 输出 的 开 为 它 的 输入 ， 输 出 


G=F2r(V24K +B2)= W2xK+B2 
”CPN 的 网 络 结构 如 图 6.18 所 示 ， 





图 6.18 ”对 传 网 络 结构 图 


6.4.2 学 习 法 则 


1 ) 在 科 荷 耸 层 ， 通 过 竞争 对 获胜 节点 采用 科 荷 伦 规则 调整 与 其 相连 的 权 矢 量 : 
AW1=1rlxP-WD ， -… 
2 ) 在 格 劳 斯 贝 格 层 ， 对 与 在 科 荷 伦 层 输出 为 1 的 输入 相连 的 权 值 进行 如 下 的 调整 : 
AW2 = 1r2*(G- W2) 
这 又 是 外 星 规则 的 变形 。 以 此 来 迫使 权 矢 量 逼近 与 输入 1 对 应 的 输出 目标 矢量 .， 


6.4.3 训练 过 程 


1 ) 初始 化 : 

归 一 化 处 理 输入 、 目 标 矢量 P 和 CG; 

对 权 矢 量 W1 和 岁 2 进行 归 一 化 随机 取 值 ; 

选取 最 大 循环 次 数 、 学 习 速 率 1 和 12 . 

2 ) 科 荷 伦 层 的 无 指导 训练 过 程 : 

重复 对 输入 的 样本 进行 竞争 计算 ， 对 获胜 的 科 荷 伦 层 获胜 节点 按 科 荷 伦 法 对 与 其 连接 
的 权 舌 量 进行 修正 ; 

3 ) 格 劳 斯 贝 格 层 有 指导 的 训练 过 程 ; 

“寻找 层 输 入 为 1 的 节点 ， 并 对 与 该 节点 相连 的 权 矢 量 进行 修正 ; 
4 ) 检查 最 大 循环 的 数 是 否 达到 ， 是 ， 则 停止 训练 ， 否 ， 则 转 人 2 ) 。 
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经 过 充分 训练 后 的 CPN 可 使 其 科 荷 伦 层 的 权 矢 量 收敛 到 相似 输入 矢量 的 平均 值 ,而 使 
格 劳 斯 贝 格 层 权 向 量 收敛 到 目标 矢量 的 平均 值 。 

当 CPN 训练 后 工作 时 ， 只 要 对 网 络 输入 一 矢量 X， 则 在 科 荷 伦 层 经 过 竞争 语 产生 获胜 
节点 ， 并 在 格 劳 斯 贝 格 层 使 获胜 节点 所 产生 的 信息 向 前 传送 ， 在 输出 端 得 到 输出 矢量 了 ， 
这 种 由 矢量 忆 得 到 矢量 了 的 过 程 有 时 也 称 为 异 联想 , 更 广泛 地 说 , 它 实 现 了 一 种 计算 过 程 . 

当 训练 CPN 使 其 格 劳 斯 贝 格 层 的 目标 矢量 G 等 于 科 荷 伦 层 的 输入 矢量 已 时 ， 则 可 实 
现 数据 压缩 。 具体 做 法 是 : 首先 是 训练 CPN 使 其 CG=P ， 然 后 ， 将 输入 数据 输入 CPN ， 在 
科 荷 伦 层 输出 得 到 0 ，1 数据 ,这 些 数据 为 输入 的 压缩 码 .解码 时 ,将 在 科 荷 伦 层 压缩 的 0 ， 

1 码 送 入 格 劳 斯 贝 格 层 ， 在 其 输出 端 对 闻 得 到 解压 缩 的 矢量 . 

实际 上 从 格 劳 斯 贝 格 层 输 出 端 得 到 的 仅 是 同类 矢量 的 平均 值 ， 并 不 是 精确 的 原始 矢 
量 ， 它 只 反映 了 输入 矢量 的 统计 特性 若 采 用 BP 网 络 则 能 够 得 到 更 精确 的 信息 ， 所 以 对 
于 某 些 要 求 精确 映射 的 问题 ， 使 用 CPN 不 太 合适 ， 不 过 .CPN 先 把 输入 矢量 聚 类 ， 然 后 再 
用 格 劳 斯 贝 格 层 进行 监督 式 训 练 ， 这 种 处 理 方式 在 不 少 场合 下 是 适用 的 ， 并 且 节 省 了 大 量 
的 时 间 ， 它 的 最 突出 的 优点 是 将 监督 式 和 无 监督 式 的 训练 方法 有 机 的 结合 起 来 了 ， 从 而 提 
高 了 训练 速度 . 


6.S 自 适应 共振 理论 


自 适应 共振 理论 (Adaptive Resonance Theory, 简 称 ART ) 是 美国 波士顿 大 学 的 卡 潘 特 
( A. Carpenter ) 和 格 劳 斯 贝 格 提出 的 。 这 种 网 络 具 有 两 种 形式 : ARTI 处 理 双 极 性 (或 二 
进 制 数据 ， 而 ART2 处 理 连 续 数据 . 

从 前 面 多 种 网 络 对 样本 数据 训练 的 过 程 中 已 经 看 到 ， 不 论 是 监督 式 或 是 无 监督 式 的 训 
练 ， 都 会 出 现 网 络 对 新 模式 的 学 习 。 伴随 着 对 已 学 习 过 的 模式 的 部 分 甚至 全 部 的 忘却 ， 在 
监督 式 的 训练 情况 飞 ， 我 们 通过 对 网 络 成 千 上 万 次 地 反复 输入 样本 的 训练 ， 使 网 络 逐 渐 达 
到 稳定 的 记忆 。 而 在 无 监督 式 的 训练 情况 下 ， 对 新 的 数据 的 学 习 将 会 产生 对 某 种 已 记忆 的 
典型 矢量 的 修改 ， 造 成 对 已 学 习 数 据 的 部 分 忘却 ， 控 制 不 好 将 会 使 所 记忆 的 矢量 来 回 波动 
而 变 成 没有 代表 意义 ， 所 以 在 神经 网 络 的 训练 过 程 中 ， 我 们 时 刻 面临 着 新 知识 的 学 习 记 忆 
和 对 旧 知 识 的 退化 忘却 这 个 问题 。 我 们 的 希望 是 ， 能 够 学 会 新 的 知识 ， 而 同时 对 已 学 过 的 
知识 毫 无 不 利 影 响 。 但 是 在 输入 矢量 特别 大 的 情况 下 ， 很 难 达到 这 种 愿望 。 一般 情 况 下 ， 
我 们 只 能 在 新 且 知 识 的 取舍 上 进行 某 种 折衷 ， 最 大 可 能 地 接受 新 的 知识 而 较 少 地 影响 原 有 
的 知识 。 

ART 网 络 较 好 地 解决 了 上 述 的 问题 。 网 络 和 算法 有 较 大 的 灵活 性 ， 以 适应 新 输入 的 模 
式 ， 同 时 疏 力 避免 对 网 络 先前 所 学 习 过 的 模式 的 修改 。 它 的 记忆 容量 可 以 随 样本 的 增加 而 
自动 增加 ， 这 就 可 以 在 不 破坏 原 记忆 样本 的 情况 下 学 习 新 的 样本 。 

ART 网 络 的 主要 应 用 方向 集中 在 图 像 处 理 、 语 声 处 理 、 模 式 识别 、 控制 系统 、 知识 处 
理 、 雷 达 图 像 分 类 以 及 语 声 感知 等 领域 . 
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6.5.1 ARTI1 网 络 结构 


ART1 的 一 种 网 络 结构 如 图 6.18 所 示 。 主要 由 两 层 神 经 元 以 及 一 些 控制 信号 相互 结合 
而 成 。 为 了 方便 起 见 ， 人 们 一 般 把 从 输入 矢量 忆 到 输出 矢量 4 的 称 为 识别 层 或 R(R - 
recognition) 层 ， 而 把 输出 4 作为 输入 再 返回 输入 的 层 称 为 比较 层 ， 或 C(C- Comparison) 层 。 

从 层 结构 上 讲 ， R 层 为 一 个 竞争 网 络 ; C 层 为 一 个 格 劳 斯 贝 格 的 外 星 网 络 ， 

由 结构 图 6.19 可 以 看 出 ， 及 层 和 C 层 分 别 接受 来 自 三 个 方面 的 信号 : 

C 一 及 





图 6.19 ARTI 系统 的 一 种 结构 图 
R 层 : 
四 加 权 输 入 经 过 竞争 后 的 所 产生 的 输出 了 ; 
@ 控 制 信号 G2; 
四 复原 信号 Reset . 
C 层 : 
@ 输 入 矢量 已 
Q@R 层 的 返回 信号 ; 
四 控制 信号 G1 . 
控制 信号 G1 ， G2 和 Reset 的 作用 如 下 : 
G1 : 


设 输 入 矢量 的 各 元 素 的 逻辑 “或 ”为 Po ， 及 层 输出 元 素 的 逻辑 “或 ”为 4 ， 则 有 G1 
= Po 40 。 换 句 话 说， 只 有 当 有 R 层 输出 元 素 全 为 0 ， 而 输入 元 素 不 全 为 零 时 ， G1 = 1， 其 他 
情况 下 ，CL1=0 . 
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C2: 
等 于 输入 元 素 的 逻辑 “或 ”， 即 只 有 在 输入 元 素 全 为 0 时 ， G2 = 0, 否则 G2 = 1 


Reset: 

Reset 平时 等 于 1 ， 而 当 测 试 输入 矢量 与 R 层 权 值 点 各 与 预先 设想 的 相似 度 B 之 和 小 
于 零 时 ， 以 及 在 R 层 竞 争 获胜 节点 无 效 ， 表 示 此 次 选择 的 模式 代表 不 能 满足 要 求 时 ， 则 发 
生 Reset= 0 的 信号。 

R 层 输出 有 8 个 节点 ， 它 代表 了 @ 组 输入 模式 的 分 类 ， 该 节点 数 是 能 够 动态 地 增长 ， 
以 满足 设立 新 模式 的 需要 。 ART 网 络 作为 模式 分 类 器 ， 其 工作 过 程 如 下 : 

网 络 接受 输入 矢量 ， 并 按 一 定 的 规则 来 确定 这 个 新 输入 是 否 属于 网 络 中 已 记忆 的 模式 
类 别 ， 其 判别 的 标准 为 新 输入 模式 与 所 有 已 记忆 模式 之 间 的 相似 程度 。 按 照 事先 设 定 的 相 
似 度 来 考察 它们 ， 从 而 决定 对 新 输入 矢量 采取 的 处 理 方式 。 对 大 于 预定 相似 度 的 输 和 模式， 
选择 其 中 最 为 相似 的 记忆 模式 作为 该 输入 的 代表 类 ， 并 按 一 定 的 规则 修正 相似 权 矢 量 以 使 
该 类 权 值 更 加 接近 于 新 输入 模式 。 若 该 输入 模式 不 与 现 记忆 的 任何 类 别 相似 ， 则 在 网 络 中 
设立 一 个 新 的 模式 ， 用 以 代表 和 记忆 新 模式 ， 并 将 其 归 为 已 有 的 代表 类 别 ， 成 为 R 层 的 一 
个 新 的 输出 节点 ， 作 为 以 后 可 能 输入 的 代表 模式 。 

在 每 一 次 网 络 接受 新 的 输入 时 ， 都 伴随 着 上 面 的 运行 过 程 ， 以 决定 本 次 输入 模式 是 否 
应 归并 到 已 有 的 记忆 类 别 中 ， 归 并 到 哪 一 类 ， 还 是 应 该 新 设立 记忆 节点 。 若 已 经 确定 输入 
模式 与 某 一 记忆 类 别 相似 ， 则 调整 与 该 类 节点 相连 的 权 矢 量 ， 使 以 后 该 模式 再 次 输入 时 ， 
能 够 获得 更 大 的 相似 度 。 对 于 其 他 权 矢 量 ， 则 不 作 任何 变动 。 当 设立 一 个 新 模式 类 时 ， 同 
时 建立 与 该 模式 相连 的 权 矢 量 ， 以 便 记忆 该 模式 并 参与 以 后 模式 输入 的 运行 过 程 。 


6.5.2 ARTI 的 运行 过 程 


人 ART 网 络 最 主要 的 特点 是 将 网 络 的 训练 与 工作 运行 过 程 有 机 地 结合 在 一 起 ， 一 般 
ARTI 的 工作 过 程 都 分 为 下 面 三 个 阶段 : 

(1) 自 C 层 流向 R 层 的 识别 阶段 

在 输入 一 个 模式 己 之 前 ，C 层 输 入 端的 值 均 为 0, 使 G2 = 0,G1 = 0, 而 Reset=1 ,所 
以 及 层 处 于 可 运行 的 等 待 方式 ， 因 R 层 输 入 均 为 0 ， 令 尸 输 入 可 运行 。 

当 输入 矢量 尸 信号 由 左 向 右 根据 竞争 层 功能 ， 首 先 计 算 输 入 加 权 总 和 ， 然 后 进行 竞争 ， 
ce 

) 自 恨 层 流向 C 层 的 比较 阶段 

2 同时 令 G1 = 0， 从 而 使 C 层 输入 悬空 等 待 。R 层 输 入 所 得 输出 信 
号 返回 C 层 ， 这 将 与 R 层 输 出 为 1 的 节点 相连 的 外 星 权 值 Wi; 相 乘 获得 外 星 加 权 总 和 ， 加 
上 颈 先 设 置 的 相似 度 妃 ， 这 个 权 值 是 等 于 竞争 网 络 中 权 值 的 Wy 的 转 置 ， R 层 流 向 C 层 的 
最 终端 输出 值 ， 也 是 在 C 端 获得 的 临时 输入 值 为 C 外 星 网 络 饱和 天 数 的 输出 : 

C =F(W*P+ 呆 ) 

若 C 值 大 于 0,， 使 C2 =1, 同时 置 Reset = 1 ， 致 使 R 层 运 算 结 果 有 效 ， 表 明 竞 争 结果 

正确 ， 输 入 矢量 己 也 找到 同类 ， 此 时 可 使 竞争 层 权 值得 以 修正 : 
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A 了 多 =1r*( 已 - ATW); 不 = - 取 +AW; 

而 大 于 0 的 C 值 ， 也 使 G1 = 1, 加 上 不 为 零 的 了 ， 使 C 层 进入 输入 下 一 个 新 的 状态 . 
若 C 值 等 于 0 ， 使 G2 = 0 ， 同 时 发 出 Reset = 0 信号 ， 从 而 使 R 层 此 次 结果 无 效 ， 进 而 输 
人 搜索 阶段 。 与 此 同时 ， 置 R 层 输出 了 = 0 ， 并 使 R 层 获胜 节点 在 后 面 的 搜索 阶段 不 能 再 
0 方面 ，C = 0 与 了 = 0 使 C 层 处 于 仍 输入 现 输入 己 的 状态 ,而 不 输入 新 输入 己 。 

) 搜索 阶段 

和 
输入 已 ， 则 使 GI = 1 和 G2 = 0 而 使 C 层 进入 运行 阶段 。 因 此 ， 整 个 网 络 又 重新 进入 了 识 
别 和 比较 阶段 ， 并 可 获得 新 的 获胜 节点 。 又 因 Reset = 0 ， 所 以 ， 前 面 的 获胜 节点 不 准许 再 
参加 竞争 ， 这 样 重复 直至 搜索 到 某 一 个 获胜 节点 不 按 外 星 网 络 返回 的 权 矢 量 与 输入 己 的 相 
似 度 达到 满意 的 要 求 为 止 ， 并 把 己 归 类 为 R 层 第 上 个 节点 所 连接 权 矢量 的 类 别 中 ， 即 按 一 
定 的 方式 修改 与 第 人 个 节点 相连 的 内 、 外 星 权 矢量 (如 内 旺 采 用 科 荷 伦 规 则 ， 外 星 权 矢量 
为 所 求 内 星 权 矢量 的 转 置 ) 这 样 使 网 络 以 后 再 遇 到 已 或 己 的 相似 模式 时 ，R 层 的 大 节点 能 
更 快 地 使 其 获得 竞争 的 胜利 。 

若 搜索 了 所 有 的 R 层 输入 节点 而 没有 找到 与 输入 矢量 充分 接近 的 外 性 权 矢量 ， 则 增 
设 一 个 新 的 R 层 节点 以 代表 输入 己 或 与 已 相 近 的 权 矢 量 . 

以 上 三 个 阶段 表示 了 ART1 对 一 次 外 界 输入 网 络 的 运行 过 程 。 当 外 界 输入 忆 与 所 激活 
的 外 星 权 矢量 充分 相似 时 ， 网 络 则 发 生 “ 共 振 ”， 运 行 过 程 结果 ， 否 则 的 话 ， 就 进行 特别 
的 处 理 ， 直 到 “共振 ”的 现象 发 生 时 对 本 次 输入 的 训练 过 程 才 最 终结 束 ， 然 后 置 Reset = 1， 
释放 所 有 被 Reset 信号 封 住 的 节点 ， 使 之 又 可 以 对 新 的 输入 模式 开始 以 上 的 训练 过 程 。 

R 层 和 C 层 运行 的 最 终 有 效 性 是 根据 各 层 的 “ 2/3 规则 ”来 决定 的 。 具 体 地 说 ， 对 有 
层 来 说 ， 其 层 运行 竞争 结果 的 有 效 性 是 由 G2 与 Reset 两 信号 是 否 一 致 来 决定 有 效 或 无 效 ; 
对 C 层 来 说 ， 控 制 信号 G1 与 R 层 返回 信号 是 同时 为 0 ， 或 同时 为 1 时 ， 决 定 着 该 层 输 出 
矢量 是 原先 输入 矢量 尸 还 是 下 一 个 新 输入 矢量 ， 表 6.1 表示 一 种 可 能 的 信号 规则 . 

表 6.1，ART 网 络 运行 的 控制 信号 





类 似 上 述 ARTI1 网 络 的 工作 过 程 已 经 由 MATLAB 编 成 了 名 为 simal.m 的 程序 。 它 所 
需要 的 输 人 变量 有 4 个 : 被 学 习 的 权 值 泵 1 ， 输 入 矢量 P ， 相 似 度 ~ 以 及 打印 频率 尺 . 程 
序 的 输出 为 训练 出 的 最 新 权 和 矩阵 矿 ， 由 训练 权 值 所 返回 的 网 络 输出 矢量 41 ， 以 及 在 竞争 
层 所 获胜 的 节点 。 

值得 注意 的 是 ， 对 ART1 网 络 进行 训练 时 ， 初始 权 矢 量 取 必 须 全 取 1 。 因 为 采用 的 是 
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0,，! 输入 ， 对 输入 矢量 不 进行 归 一 化 处 理 ， 但 所 采用 的 相似 度 是 将 竞争 获胜 后 返回 到 输入 
层 的 矢量 41 与 输入 矢量 忆 进行 逻辑 “与 ”处 理 ， 然 后 用 两 者 元 素 之 和 的 差 值 进 行 比较 。 
当 相 似 度 >= 工 时 ， 表 示 41 与 已 在 相同 输入 元 素 上 具有 相同 数字 ]1 的 数目 相等 ， 这 也 是 两 
个 矢量 为 完全 相同 的 情况 。 随 着 ~ 的 减 小 ， 有 差异 的 相似 输入 分 量 就 有 更 多 的 可 能 性 被 分 
成 同类 。 工 作 时 ， 设 计 者 只 要 编写 一 个 自己 的 应 用 程序 对 函数 simal,m 进行 调用 ， 即 可 求 
得 ART1 网 络 最 后 对 输入 矢量 自动 分 类 的 结果 . 下 面 给 出 对 一 个 具有 8 组 13 个 元 素 的 二 进 
制 输入 矢量 P ， 采 用 simaltm 进行 自动 分 类 的 典型 应 用 程序 ， 其 中 取 :，r = 0.85 ， 竞 争 层 
初始 节点 取 3 个 。 下 面 就 是 利用 simal.m 程序 对 ARTI1 网 络 进行 训练 的 程序 : 


% ART1.m 
钨 
P=[11010110; 色 待 分 类 的 输 和 人 样本 

01101110; 

10000001; 

11101110; 

01110110; 

11010111i 

00101011; 

00101000; 

11101001; 

01010110; 

11000111; 

00101000; 

00101100]; 
[R,Q] = size(P); 
S = 3; 多 选择 初始 输出 节点 
W0 = ones(S,R); % 网 络 初始 权 值 
ir = 1 % 选择 学 习 速 率 村 
T= 0.85; 包 选择 相似 度 
disp(Pass 1 人 ); 
W = simal(W0,P,Irrl); % 第 一 次 运行 ART1 网 络 训练 程序 
disp(Pass 2); 鲍 将 运行 结果 W 作为 初始 权 值 ， 
W = simal(W,P,Irr1); 多 进行 第 二 次 运行 ART1 网 络 训练 程序 
disp(Pass 37); 
允 = simal(W,Prrl 锡 进行 第 三 次 运行 ARTLI 网 络 训练 程序 
W1I= 凤 / 
end 


运行 此 程序 可 以 看 到 三 次 重复 训练 中 每 一 次 对 输入 样本 P 中 每 一 组 矢量 的 处 理 结果 。 
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注意 在 下 面 的 运行 结果 的 显示 中 ， 将 ARTI 网 络 的 竞争 层 ， 也 就 是 R 层 称 为 第 二 层 : 


》 ART1 
Pass 1 


Vector 1 resonates Layer-2 neuron 1]. 
Vector 2 Tesonates Layer-2 neuion 2. 
Vector 3 resonates Layer-2 neuron 3. 
Vector 4 Tesonates Layer-2 neuton 2. 
Vector $ resonates Layer-2 neuron 3. 


Vector 6 Tesets jayer-2 neuron 2. 
Vector 6 resets ljayer-2 neuron 工 . 
Vector 6 resets layer-2 neuron 3. 
New Layer-2 neuron created. 


Vector 6 resonates Layer-2 neuron 4. 
Vector 7 resonates Layer-2 neuron 4. 
Vector 8 resonates Layer-2 neuron 1. 


Pass 2 

Vector 1] resets jayer-2 neuron 1. 
Vector 1 resets layer-2 neuron 4. 
Vector 1 resets layer-2 neuron 2. 
Vector 1 resets jayer-2 neuron 3. 
New Layer-2 neuron created， 


Vector 1 resonates Layer-2 neuron 和， 
Vector 2 resonates LayerT-2 neuron 4. 
Vector 3 resonates Layer-2 neuron 3， 
Vector 4 resonates Layer-2 neuIon 2， 
Vector $ resonates Layer-2 neuron 3. 
Vector 6 resonates Layer-2 neuron 4. 
Vector 1 resonates Layer-2 netron 4. 
Vector 8 resonates Layer-2 neuron 1 . 


Pass 3 


Vector 1 resonates Layer-2 neuron 5. 
Vector 2 resonates Layer-2 neuron 4. 
Vector 3 resonates Layer-2 neuron 3. 
Vector 4 resonates Layer-2 neuron 2. 
Vector 9 resonates Layer-2 neuron 3. 
Vector 6 resonates Layer-2 Beuron 4. 
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Vector 7 resonates 直 ayer-2 neuron 4 
Vector 8 resonates Layer-2 neuron 1. 
Hit any key to see the final weight matrices. 


The top-down weights W1: 


W1= 
0 - I 0 1 1 
0 0 1 1 0 
1 0 0 0 1 
0 0 1 1 1 
0 1 0 1 0 
1 1 0 1 1 
0 0 1 1 0 
0 0 1 0 0 
1 0 1 0 1 
0 1 0 1 0 
1 0 0 1 1 
0 0 1 0 0 
0 0 1 0 0 

The top-up weights W2: 

W2= 


Columns 1 through 7 


0 0 ”0.5000 0 0 .05000 0 


0.5000 0 0 0 0.5000. .05000 .0 
0 ”0.3780 0 0.3780 0 0.， .0.3780 

0.3536 0.3536 0 0.3536 ”0.3536 0.3$36 ”0.3536 

0.4082 0 “04082 ”0.4082 0 ”0.4082 0 


Columns 8 through 13 


0 0.5000 0 0.5000 0 . 0 

0 0 0.3000 0 0 . 0 
0.3780 0.3780 0 0 0.3780 .0.3780 

0 0 0.3536 0.3536 0 0 

0 0.4082 0 0.4082 0 0 
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下 面 对 运行 结果 记录 的 ART1 网 络 的 工作 过 程 进行 解释 : 

在 第 一 轮 运 行 中 : 
第 一 个 矢量 与 竞争 层 中 第 一 个 神经 元 “共振 ”; 
第 二 个 矢量 与 竞争 层 中 第 二 个 神经 元 “共振 ”; 
第 三 个 矢量 与 竞争 层 中 第 三 个 神经 元 “共振 ”; 
ee 
第 五 个 矢量 与 竞争 层 中 第 三 个 神经 元 “共振 ” 
第 天 个 笑 量 虽 然 与 页 争 层 中 第 一 个 入 经 元 “共振 ”， 但 因 不 满足 相 
似 度 的 要 求 而 被 复位 搁置 。 在 继续 的 搜索 中 ， 虽然 又 与 竞争 层 中 第 
一 个 和 第 三 个 神经 元 分 别 有 了 “共振 ”， 但 均 不 满足 相似 度 的 要 求 ， 
此 后 ，ART1 网 络 自动 产生 了 一 个 新 的 竞争 层 〈 第 四 个 ) 神经 元 作 
-为 第 六 个 输入 矢量 的 神经 元 的 代表 ; 
第 七 个 矢量 与 竞争 层 中 第 四 个 神经 元 “共振 ” 
第 八 个 矢量 与 竞争 层 中 第 一 个 神 色 元 共振 ，， 

由 于 有 相似 神经 元 的 存在 ， 加 之 新 的 神经 元 的 出 现 ， 使 得 修正 后 权 矢量 在 进行 第 二 次 

运行 时 ， 使 原先 相似 的 结果 又 产生 了 变化 : 

原先 与 竞 争 层 中 第 一 个 神经 元 “共振 ， 的 第 一 组 矢量 在 因为 虽然 
“共振 ”但 没有 满足 相似 度 要 求 的 情况 下 ， 分 别 复 位 搁置 了 竞争 层 
中 第 一 、 四 、 二 和 三 神经 元 后 ， 又 自动 产生 了 一 个 新 的 竞争 层 (第 五 
个 ) 神经 元 作为 其 输入 矢量 的 神经 元 的 代表 ; 
第 二 个 矢量 不 再 与 竞争 层 中 第 二 个 神经 元 而 是 与 第 四 个 神经 元 “共振 ”; 
第 三 个 矢量 仍然 与 竞争 层 中 第 三 个 神经 元 “共振 ”; 
第 四 个 矢量 仍然 与 竞争 层 中 第 一 个 神经 元 “共振 ”; 
第 五 个 矢量 仍然 与 竞争 层 中 第 三 个 神经 元 “共振 ”; 
第 六 个 矢量 仍然 与 竞争 层 中 第 四 个 神经 元 “共振 ”; 
第 七 个 矢量 仍然 与 竞争 层 中 第 四 个 神经 元 “共振 ”; 
第 八 个 矢量 仍然 与 竞争 层 中 第 一 个 神经 元 “共振 ”。 

”第 三 次 运行 中 没有 再 出 现 新 的 变动 。 

。 最 终 的 结果 是 : 8 个 输入 矢量 被 分 为 5 类， 其中， 属于 第 一 类 的 是 第 八 组 输入 失 量 ; 
属于 第 二 类 的 是 第 四 组 输入 矢量 ; 属于 第 三 类 的 是 第 三 组 和 第 五 组 输入 矢量 ; 属于 第 四 类 
的 是 第 二 、 六 和 七 组 输入 矢量 ; 属于 第 五 类 的 是 第 一 组 输入 矢量 。 结 果 中 所 给 出 的 权 矢 量 
W1 为 五 组 类 型 的 代表 矢量 。 权 矢量 W2 为 W1 归 一 化 处 理 后 的 转 置 矢量 . 
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第 七 章 “面向 工具 箱 的 神经 网 络 实际 应 用 


7.1 综 述 


近年 来 ， 人工 神 经 网 络 在 金融 、 制 造 、 国 防 、 宇 航 、 医 药 、 通 讯 、 自 动 控制 等 领域 都 
有 不 少 成 功 应 用 的 例子 。 世 界 上 经 营 神经 网 络 的 软件 公司 也 不 断 涌现 。 但 是 利用 神经 网 络 
的 软件 进行 应 用 的 设计 仍然 强调 通过 有 针对 性 的 实验 。 一 个 好 的 神经 网 络 应 用 的 诞生 ， 只 
有 在 对 网 络 的 种 类 、 结 构 以 及 参数 经 过 反复 的 考虑 和 修正 ， 对 方案 通过 实验 不 断 地 进行 改 
进 的 基础 上 而 确定 。 神 经 网 络 应 用 的 设计 在 一 定 程度 上 还 依赖 于 经 验 ， 所 以 更 加 需要 重视 
实验 . 在 掌握 了 神经 网 络 理论 的 基础 上 ， 加 上 方便 的 工具 箱 的 使 用 ， 可 以 使 我 们 在 网 络 的 
合理 结构 、 网 络 的 优点 的 利用 以 及 网 络 性 能 的 提高 方面 更 加 集中 注意 力 。 下 面 ， 我 们 首先 
从 综合 的 角度 阑 述 在 神经 网 络 设计 过 程 中 应 考虑 的 主要 因素 ， 为 设计 神经 网 络 做 一 些 指导 
性 的 概括 。 


7.1.1 神经 网 络 技术 的 选取 


在 决定 采用 神经 网 络 技术 之 前 ， 应 首先 考虑 是 否 有 必要 采用 神经 网 络 。 对 于 大 多 数 应 
用 问题 ， 神 经 网 络 与 最 好 的 计算 方法 以 及 统计 方法 相 比 并 非 更 加 优越 。 因 为 对 于 那些 其 特 
征 和 规律 都 可 求解 的 问题 ， 可 以 用 逻辑 式 或 数学 式 精确 的 描述 。 尤 其 在 控制 系统 中 ， 传 统 
的 经 典 控制 理论 利用 线性 系统 的 传递 函 数 ， 采 用 根 轨迹 法 、 奈 魁 斯 特 曲 线 ， 以 及 伯 德 图 等 
方法 , 可 以 系统 全 面 地 对 线性 系统 的 稳定 性 等 进行 分 析 , 设计 出 满足 性 能 要 求 的 常规 比例 一 
微分 一 积分 型 控制 器 ， 而 现代 控制 理论 根据 状态 空间 法 求 出 线性 系统 的 状态 空间 方程 以 及 
转移 矩阵 ， 利 用 可 控制 性 及 可 观 性 判 据 对 系统 进行 分 析 ， 通 过 卡尔 曼 滤 波 器 、 状 态 观测 器 
等 状态 反馈 手段 ， 设 计 出 专门 反馈 控制 器 。 另 外 还 可 以 根据 目标 函数 设计 出 最 优 控制 器 。 
对 于 那些 能 够 精确 地 求 出 系统 的 传递 函数 ， 或 能 够 用 数学 表达 式 来 对 系统 进行 描述 的 系 
统 ， 则 应 采用 已 有 的 成 熟 的 设计 方案 来 解决 问题 . 

当 处 理 较为 复杂 的 问题 ， 或 采用 常规 方法 无 法 解决 或 效果 不 好 的 问题 时 ， 神 经 网 络 则 
能 够 显示 出 其 优越 性 ,尤其 是 当 对 问题 内 部 的 规律 不 甚 了 解 ， 不 能 用 精确 的 数学 表达 式 措 
述 其 系统 ， 对 要 求 具有 容错 的 任务 ， 如 图 形 的 检测 与 识别 或 诊断 ， 特 征 的 提取 和 预测 等 ， 
神经 网 络 都 成 为 最 合适 的 处 理 手 段 。 另 一 方面 ， 神 经 网 络 对 处 理 大 量 数据 而 又 不 能 用 符号 
或 数字 方法 描述 的 问题 ， 表 现 出 极 大 的 灵活 性 与 自 适 应 性 。 
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7.1.2 ”神经 网 络 各 种 模型 的 应 用 范围 


神经 网 络 各 种 模型 的 应 用 范围 取决 于 具体 的 应 用 任务 .下 面 我 们 总 结 一 下 各 种 神经 网 
络 模型 所 适用 的 场所 。 

(1 ) 函数 通 近 及 图 形 识 别 

对 于 大 多 数 函 数 逼 近 、 图 形 识别 及 信号 处 理 等 应 用 ， 所 选用 的 网 络 常常 是 前 馈 网 络 . 
如 果 输 入 矢量 的 组 数 为 几 百 个 或 更 多 一 些 ， 且 需要 精确 的 函数 逼近 值 ， 采 用 BP 网 络 是 最 
恰当 不 过 的 了 。 对 于 较 大 的 网 络 ， 其 训 绑 时 间 过 长 是 一 个 不 足 。 BP 网 络 的 另 一 个 不 足 是 
网 络 的 训练 有 可 能 陷 人 局 部 极 小 值 。 这 些 问题 可 以 通过 采用 改进 的 BP 网 络 的 训练 方法 而 
得 到 一 定 的 缓解 。 

对 二 进 制 图 形 的 识别 可 采用 感知 器 。 对 连续 性 数字 的 图 形 识别 可 以 采用 自 适应 线性 元 
件 。 它们 的 限制 均 为 只 能 对 输入 矢量 进行 线性 划分 。 如 果 要 求 网 络 不 仅 能 够 识别 图 形 的 类 
别 ， 而 且 还 能 够 辨别 出 大 小 ， 则 可 以 采用 竞争 网 络 、 科 荷 伦 网 络 或 ART 网 络 。 ART 网 络 
是 集训 练 与 执行 过 程 为 一 体 的 网 络 ， 可 以 在 不 破坏 原 记忆 的 情况 下 学 习 新 的 样本 ， 解 决 了 
普通 竞争 网 络 所 存在 的 遗忘 问题 

(2 ) 联想 记忆 

联想 记忆 问题 通常 可 分 为 两 类 : 自 联 想 和 蜡 联想 。 自 联想 是 模式 样本 自身 存储 和 恢复 
问题 而 异 联想 则 是 模式 集 X 中 的 一 个 模式 立 ， 需 在 另 一 个 模式 集 工 中 产生 一 个 对 应 的 模 
式 关 。 如 : 原因 与 结果 ， 声 音 联 想 图 像 ， 图 形 联想 文字 等 。 无 论 是 自 联 想 ， 还 是 异 联想 问 
题 ， 它 的 样本 数据 均 分 为 两 类 : 数字 量 和 模拟 量 。 有 些 联想 记忆 问题 是 线性 映射 ， 而 许多 
联想 记忆 问题 则 是 非 线 性 映射 . 

当 输入 是 不 完全 或 缺损 的 图 形 ， 希 望 通过 网 络 重新 恢复 完整 图 形 的 输出 时 ， 可 以 采用 
瞧 普 菲尔德 网 络 来 解决 这 类 问题 。 它 可 以 使 输入 的 数据 最 终 收敛 到 记忆 在 网 络 中 属于 该 数 
据 的 稳定 的 平衡 点 。 

(3 ) 数据 压缩 

数据 压缩 一 般 用 于 数据 的 传输 和 存储 。 有 多 种 网 络 模型 可 以 用 于 数据 压缩 。 它 们 是 : 

1 ) 用 科 荷 伦 网络 可 以 产生 0 、 工 码 ， 对 于 简单 的 系统 ， 用 此 码 恢 复 信息 的 精度 正比 
于 所 用 码 的 数目 ; 

2 ) 采用 输入 与 输出 层 节点 数 相同 的 BP 网 络 ， 而 使 其 隐 含 层 的 节点 数 比 输入 、 输 出 层 
节点 数 少 得 多 。 训 练 时 ， 其 目标 矢量 就 是 输入 矢量 ， 这 样 训练 结果 使 得 隐 含 层 中 学 会 了 表 
征 输入 的 特征 矢量 。 将 隐 含 层 的 输出 矢量 和 输出 层 的 权 矢 量 进行 传输 储存 。 当 需要 解压 缩 
时 ， 可 以 通过 在 输出 层 加 上 被 压缩 的 隐 含 层 的 输出 矢量 ， 在 其 输出 端 即 可 得 到 恢复 的 原始 
输入 数据 ; 

3 ) 对 传 网 络 CPN 也 能 够 用 来 进行 图 像 数 据 的 压缩 ， 其 中 ， 由 科 荷 伦 层 执行 复杂 的 变 
换 以 便 将 输入 图 形 的 空间 维 数 大 大 减少 ， 然 后 ， 通 过 格 劳 斯 贝 格 层 的 对 传 映射 再 恢复 原始 
数据 的 平均 值 。 

4) 自 适 应 控制 
人 工 神 经 网 络 在 控制 中 的 应 用 主要 表现 在 以 下 几 个 方面 : 
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1 ) 神经 网 络 对 于 复杂 不 确定 性 问题 的 自 适应 能 力 和 学 习 能 力 ， 可 以 被 用 作 控 制 系统 
中 的 补偿 环节 和 自 适 应 环节 ; 

2 ) 神经 网 络 对 任意 非 线性 关系 的 描述 能 力 ， 可 以 被 用 于 非 线性 系统 的 辩 识 和 控制 等 

3 ) 神经 网 络 的 非 线性 动力 学 特性 所 表现 的 快速 优化 计算 能 力 ， 可 以 被 用 于 复杂 控制 

问题 的 优化 计算 等 ; 

4 ) 神经 网 络 对 大 量 定性 或 定量 信息 的 分 布 式 存储 能 力 、 并 行 处 理 与 合成 能 力 ， 可 以 
被 用 作 复杂 控制 系统 中 的 信息 转换 接口 ， 以 及 对 图 像 、 语 言 等 感觉 信息 的 处 理 和 利用 ; 

5 ) 神经 网 络 的 并 行 分 布 式 处 理 结构 所 带 来 的 容错 能 力 ， 可 以 被 应 用 于 非 结构 化 过 程 
的 控制 。 





7.1.3 ”网 络 设计 的 基本 原则 


在 实际 应 用 中 ， 面 对 一 个 具体 的 应 用 领域 问题 时 ， 通 常 首先 需 对 领域 问题 进行 分 析 和 
抽象 ， 弄 清楚 究竟 要 用 神经 网 络 方法 来 求解 什么 性 质 类 的 问题 ， 然 后 根据 问题 特点 ， 对 各 
类 网 络 模型 进行 功能 分 析 ， 从 中 初 选 出 某 种 网 络 模型 ， 进 而 对 该 网 络 进 行 特性 分 析 。 通 过 
网 络 系统 分 析 ， 确 定 出 所 选 网 络 是 否 适合 应 用 问题 求解 要 求 ， 为 网 络 模型 改进 、 组 合 、 创 
新 英 定 基础 

网 络 设计 工作 与 网 络 系统 分 析 工 作 密 切 相关 ， 互 为 交融 ,网 络 设计 基本 原则 主要 涉及 
下 述 几 个 方面 : 

(1 ) 确定 信息 表达 方式 

研究 领域 问题 的 网 络 模型 表示 ， 将 领域 问题 及 其 相应 的 领域 知识 和 经 验 转化 为 网 络 所 
能 表达 并 能 处 理 的 形式 。 

拿 到 一 个 具体 的 应 用 领域 问题 ， 首 先 考 察 其 是 否 能 用 人 工 神经 网 络 求解 以 及 是 否 适 宜 
于 用 人 工 神 经 网 络 求解 。 然 后 必须 对 其 作 一 番 深 入 的 分 析 ， 透 过 现象 ， 抓 住 本 质 ， 抽 提问 
题 最 本 质 的 主要 特征 ， 根 据 问 题 的 特征 和 性 质 进 行 分 类 和 归纳 ， 将 其 提炼 成 适合 网 络 求解 
所 能 接受 的 某 种 数据 形式 。 例 如 在 对 输入 样本 模式 进行 分 类 和 识别 时 ， 虽 然 问题 的 性 质 各 
不 相同 ， 大 致 有 以 下 类 型 : 

1 ) 已 知 数据 样本 ; 

2 ) 已 知 一 些 互相 间 关 系 不 明 的 数据 样本 ; 

3 ) 输入 /输出 模式 为 连续 量 ; 

、4 ) 输入 /输出 模式 样本 为 离散 量 ; 

:5 ) 希望 把 所 有 输入 模式 均 分 类 识别 开 ; 

.6 ) 希望 识别 具有 平移 、 旋 转 、 伸 缩 等 变化 的 模式 . 

(2 ) 网 络 模型 选择 

“包括 网 络 类 型 的 选择 ， 确 定 激 活 函 数 ( 神经 元 的 1 ，0 特性 ) 、 联 接 方式 ( 拓扑 结构 ) ， 
各 计算 处 理 单元 间 的 互相 作用 方式 、 神经 元 的 权 值 和 阁 值 等 ， 其 中 联接 方式 包括 是 全 局 联 
接 和 局 域 联接 。 

(3 ) 网 络 参 数 选择 

确定 计算 处 理 单元 的 数目 、 输 入 及 输出 单元 数目 、 多 层 网 的 层 数 和 隐 含 层 单元 数目 ， 


一 144 一 





以 及 各 个 必要 的 参数 的 选择 。 

(4) 学 习 训 练 算法 选择 

确定 网 络 学 习 训练 时 的 学 习 规 则 及 其 改进 方法 。 

在 网 络 设计 及 其 模型 选择 时 ， 既 可 采用 典型 网 络 模型 ， 也 可 采用 多 种 网 络 模型 的 优点 
组 合 方法 。 另 外， 还 可 在 典型 网 络 模型 的 基础 上 ， 结 合 有 具体 应 用 问题 特点 ， 对 原 网 络 模型 
进行 变型 、 扩 充 等 。 事 实 上 ， 在 实践 中 人 们 往往 视 具 体 应 用 问题 ， 选 择 合适 的 模型 或 依据 
实际 情况 发 展 新 的 网 络 模型 。 

下 面 将 通过 具体 实际 的 应 用 设计 来 灵活 应 用 MATLAB 环境 下 的 神经 网 络 工具 箱 .在 具 
体 应 用 中 将 侧重 于 解决 问题 的 思路 ， 实 现 程序 的 编写 ， 以 及 结果 的 对 比 。 


7.2 神经 网 络 在 控制 系统 中 的 应 用 


下 面 首 先 介绍 非 线性 控制 系统 中 抵消 非 线性 的 基本 思想 ， 然 后 描述 一 个 非 线 性 控制 系 
统 问题 ， 并 在 控制 系统 中 对 一 个 用 于 函数 逼近 的 神经 网 络 进行 定义 、 设 计 及 其 实现 。 最 后 
进行 了 仿真 实验 ， 并 将 其 实验 结果 与 其 他 控制 方法 进行 了 比较 。 


1 “反馈 线性 化 


有 一 些 非 线性 系统 ， 可 以 很 容易 地 应 用 反馈 线性 的 方法 。 所 谓 的 反馈 线性 化 ， 顾 名 思 
义 ， 是 利用 反馈 的 控制 手段 来 消除 系统 中 的 非 线性 ， 以 致 于 使 其 闭环 系统 的 动力 学 方程 是 
线性 的 。 反 馈线 性 化 的 方法 可 以 很 容易 地 实施 于 可 控 标 准 型 的 控制 系统 中 。 当 一 个 系统 由 
下 列 动力 学 特性 给 


下 = 让 ZX)+DCX)z E 07.0) 
di 


此 处 z 是 标量 控制 输出 ， 而 民 是 状态 变量 : 
dx drn1x17 


在 状态 空间 表达 式 中 ，(7.1) 式 动力 学 特性 可 写 为 可 控制 标准 型 : 


必 1 X2 


大 二 





(7.2) 








| 


d 元 2 X3 
一 =| 7.3 
| (7.3) 
mn-1 尼姑 
加 FOOD+DCR)z 


此 方程 描述 了 实际 系统 ， 我 人 项 记过 加 入 一 个 反 包 控制 项 x ， 而 使 其 行为 能 够 具有 
下 述 理想 线性 特性 : 
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X2 3 
| : 07.4) 
di 
充 灵 - 工 攻守 
tm -KIX1 - K2X2 人 人 - Krxn 十 人 C 太 


其 中 所 有 后 〈i= 12,… 兴 ) 和 C 均 是 常数 ，7 为 参考 输入 。 

为 了 求 得 反馈 控制 项 & ， 念 (7.4) 式 最 后 一 式 右 端 与 原 系统 方程 (7.1) 右 端 相等 ， 即 可 解 
出 控制 & 为 : 

要 K7X+Cr- /XI)] 站 
& 式 ) 

只 要 我 们 采用 (7.5) 式 ， 对 系统 进行 控制 ， 原 系统 中 的 非 性 线 将 被 消除 ， 被 控 系 统 的 闭 
环 特性 将 呈现 出 (7.4) 式 所 具有 的 线性 特性 。 并 通过 选择 适当 的 参数 上 和 C ， 即 可 得 到 期 户 
的 任意 半 阶 线性 系统 的 响应 特性 。 


7.2.2 ”问题 的 提出 


考虑 一 个 天 线 艾 仰角 控制 系统 : 
0 二 而 这 里 天 线 臂 角 度 中 是 通过 改变 直流 电机 中 的 电流 来 进行 控 

制 的 。 此 系统 的 方程 式 可 表示 为 如 下 非 线性 系统 模型 : 
C ( 国 轩 如 


dr | xa 9.81sin xi- 2x2 十 以 


(7.6) 
此 处 : 
XI= 男 
2 人 (人 攻 
| 1809 2 
图 7.1 天 线 被 控制 系统 其 中 ， & 是 送 给 电机 的 电流 ， 正 电流 使 天 线 延 顺 时 针 方 向 


转换 。 9.81sinxi 项 为 其 天 线 臂 摆 的 重力 ， 而 -2xzz 项 为 相对 于 速 
度 的 粘 摩擦 力 。 
由 以 上 所 给 出 的 被 控 系 统 的 数学 模型 ， 我 们 可 以 根据 反馈 线性 化 思想 来 推导 出 线 化 控 
制 系统 的 控制 律 。 首 先 取 : 
JE) =981sinxil - 2x22 (7.7) 
假定 我 们 期 望 的 闭环 系统 为 下 列 线性 参考 模型 的 动力 学 表达 式 给 出 的 响应 : 


d [2 X2 0 
由 国 | 罗 | | 外 
此 处 的 "为 期 望 的 输出 角 位 移 。 
由 此 可 得 到 完美 的 对 消 控制 律 为 : 
L=9r-[96]X- 帮 Xi) (7.9) 
下 面 让 我 们 训练 一 个 神经 网 络 来 帮助 执行 这 个 反馈 线性 化 控制 。 
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7.2.3 ”神经 网 络 设计 


首先 假定 非 性 线 系 统 的 采样 周期 为 0.05 秒 ， 那 么 通过 取 : 
d XK+D- 和 (有 
dr Ai 
可 将 被 控 系 统 的 离散 时 间 动 力学 特性 近似 地 描述 为 : 
X2(A) 
人 am 2 aaa 
或 
XUHD = FCKOD) + GCCUDJxR (7.10) 
我 们 将 设计 一 个 神经 网 络 来 代替 函数 正 以 便 用 它 作为 控制 器 xz 中 的 一 部 分 去 抵消 系统 
中 的 非 线性 。 这 个 函数 为 : 
FOOD = 如 +AL[9.81sinx -2x ] (7.11) 
假定 神经 网 络 对 这 个 函数 的 逼近 是 Nf ， 那 么 带 有 神经 网 络 的 非 线性 消除 控制 律 为 : 
,_+AGr-[9 6X)- ES 
Ar 
(1) 网 络 结构 
由 (7.11) 式 可 知 ， 所 要 设计 训练 的 神经 网 络 具 有 两 个 输入 xi 和 六 。 网 络 设计 的 目的 是 
能 够 使 其 产生 逼近 函数 (7.11) 式 的 非 线性 输出 ， 所 以 输出 层 有 一 个 输出 。 我 们 选取 一 个 两 层 
网 络 的 神经 模型 结构 ， 在 隐 含 层 取 10 个 神经 
元 ， 采 用 双 曲 正切 激活 函数 ; 输出 层 取 线性 激活 
函数 。 网 络 结构 图 如 图 7.2 所 示 。 
(2) 初 始 化 
为 了 采用 反 向 传播 法 进行 有 监督 式 的 非 线 
性 函数 逼近 ， 必 须 给 出 训练 用 的 输入 /输出 对 。 
鉴于 本 例 中 的 非 线性 函数 表达 式 FCOD 已 用 数学 
表达 式 给 出 , 则 可 以 通过 随机 选取 一 定数 目的 工 
作 区 的 输入 ， 再 用 FCo 求 出 目标 输出 即 可 . 若 在 
实际 系统 中 遇 到 对 其 非 线性 特性 不 易 表 达 的 情 
况 时 ， 可 通过 对 实际 被 控 系 统 进 行 输入 /输出 对 的 实测 记录 方式 获得 数据 ， 再 采用 适当 的 控 
制 策略 解决 问题 。 本 章 后 面 也 给 出 了 一 个 有 关 用 神经 网 络 有 逼近 非 线性 模型 的 控制 策略 . 
下 面 为 应 用 的 初始 化 程序 : 





7.2 所 设计 的 网 络 结构 图 


xl= [rands(1:300)*pi, rand(1:100)*pi]; 
X2 = [Tands(1:300)*pi, zeros(1:100)*pij]; 
P= [xl; x2]; 

dt = 0.05; 
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工 =X2 +dtk[9.81*#*sin(X1) - 2*x2); 
民 ,Q] = size(P); 

S1 = 10; 

[S2,Q] = size(T); 

[W1,B1] = rands(S1,R); 

[W2,B2] = rands(S2,S1); 


用 于 进行 训练 的 矢量 是 400 个 ,其 中 300 个 是 由 0 到- 开 之 间 的 辐 以 及 - 到 +r 之 间 的 
所 产生 ; 另外 100 个 是 取 速 度 如 为 0 ， 即 称 态 时 ， 由 同样 范围 内 的 国产 生 ， 即 我 们 希望 网 
络 在 系统 稳 态 时 的 非 线性 输出 要 更 加 精确 以 便 将 其 通过 反馈 控制 而 完全 抵消 ， 使 其 系统 输 
出 达到 零 稳 态 误差 。 
(3 ) 训练 
对 神经 网 络 的 训练 采用 附加 动量 法 ， 程序 如 下 : 


disp_freq = 10; 

Inax_epoch = S000; 

err_goal = 0.02; 

lr = 0.0001; 

lr_inc= 1.05; lr_dec = 0.7; 

Imomentum = 0.95; err_ratio = 1.04; 

TP = [disp_freq max_epoch err_goal irlr_inc lr_dec momentum 汉中 
[W1B1,W2,B2,TE,TR] = trainbpx(W1,Bl, tansig ,W2.B2, ?purelin,P,TTP); 


网 络 训练 在 达到 误差 平方 和 目标 的 0.02 或 达到 事先 设置 的 最 大 循环 的 次 数 5 000 次 后 
结束 ， 

图 7.3 和 图 7.4 显示 了 训练 后 的 神经 网 络 青 近 函数 严 的 能 力 , 其 中 图 7.3 为 在 令 双 = 0, M 
仅 作为 冯 的 函数 时 的 逼近 情况 ; 而 图 7.4 为 取 交 = W2 ， 即 将 位 置 固定 在 水 平 位 置 时 ，Nf 对 
速度 响应 的 情况 。 由 两 图 可 以 看 出 ， 神 经 网 络 能 够 很 好 地 台 近 非 线性 函数 。 下 面 我 们 将 带 有 
神色 经 网 络 的 控制 系统 的 响应 特性 进行 仿真 实验 ， 并 与 其 他 控制 方式 的 控制 效果 进行 比较 。 


06 


1 
1 
F 
1 
L 
1 
1 


-了 = 





x(2/) 
图 7.32=0,Nf 对 辐 的 函 教 逼 近 图 7.42= W2 ， 作 对 速度 的 响应 
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(4) 系统 的 性 能 对 比 实 验 

现在 对 神经 网 络 控制 系统 的 性 能 进行 仿真 实验 ， 并 与 其 他 采用 不 同 控制 器 的 仿真 系统 
的 控制 效果 进行 对 比 。 用 于 对 比 的 控制 系统 为 : 

1 ) 具有 理想 线性 参考 模型 的 控制 系统 ; 

2 ) 具有 精确 非 线性 抵消 控制 器 的 控制 系统 ; 

3 ) 仅 采 用 线性 控制 器 的 控制 系统 。 

线性 控制 器 是 基于 控制 系统 中 被 控 过 程 的 线性 化 模型 具有 理想 线性 参考 模型 的 响应 时 
设计 的 。 

假定 期 望 天 线 的 定位 在 水 平 位 置 ， 即 @@= 9%0"。 在 这 种 情况 下 ， 重 心力 将 驱使 天 线 臂 沿 
顺 时 针 方 向 转向 地 面 , 所 以 需要 一 定 的 电流 来 保持 臂 的 平衡 , 这 比 使 天 线 平衡 在 0 度 或 180 
度 更 加 困难 . 

控制 系统 结构 如 图 7.5 所 示 ， 其 中 反馈 控制 律 由 (7.12) 式 给 出 ， 而 精确 的 非 线性 对 消 控 
制 器 由 (7.9) 式 给 出 。 





C 一 控制 器 ; 已 一 非 线性 被 控 过 程 ; 4NN 一 神经 网 络 非 线性 逼近 器 
图 7.5 控制 系统 结构 图 


线性 化 的 被 控 过 程 ， 在 期 望 平衡 点 中 = 90? 时 的 线性 模型 为 : 


d | 如 加 2 
二 的 Cs 二 (7.13) 
由 此 线性 化 控制 以 及 期 望 闭 环 参考 模型 (7.8) 式 可 求 得 控制 律 为 : 


卷 1 
UL=[-9 -4 中 =| +10 《7.14) 
六 

图 7.6(a) 为 神经 网 络 控制 器 与 线性 参考 模型 的 响应 , 以 及 精确 的 非 线 性 对 消 控制 器 的 响 
应 .系统 的 期 望 输出 为 天 线 壁 被 保持 在 夹 角 下 = 90” ， 即 水 平 位 置 上 。 图 中 的 纵 坐 标 单位 为 
度 ; 横 坐 标 单位 为 秒 。 从 图 7.6(a) 中 可 以 看 出 它们 几乎 一 致 。 图 7.6(b) 为 非 线性 系统 采用 线 
性 控制 器 的 响应 结果 ， 其 响应 速度 要 慢 得 多 ， 图 中 实 线 为 具有 理想 参考 模型 系统 的 响应 
图 7.7 是 神经 网 络 控制 器 、 线 性 控制 器 和 理想 对 消 控制 器 的 响应 误差 曲线 ， 其 中 ， 神 经 网 
络 系统 的 响应 误差 用 “ o ”表示 出 。 虚 线 为 线性 控制 器 的 响应 误差 ， 实 线 为 理想 对 消 控制 
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器 的 响应 误差 。 由 此 可 以 看 出 ， 神 经 网 络 系统 的 响应 是 相当 出 色 的 . 


要 


1 
[ 
忆 
| 
1 
要 
1 
1 





(a) 神 经 网 络 与 精确 非 线性 对 消 控制 器 响应 (b) 线 性 控制 器 的 响应 结果 
图 7.6 控制 系统 的 对 比 响应 结果 





图 7.7 三 个 控制 器 的 响应 误差 曲线 


7.3 ”利用 神经 网 络 进行 字母 的 模式 识别 


神经 网 络 可 以 有 助 于 机 器 进行 模式 识别 。 这 是 一 个 非常 有 实用 价值 的 例子 。 最 典型 的 
用 途 可 以 说 是 我 们 大 家 都 非常 熟悉 的 辨识 信封 上 的 邮政 编码 。 在 规定 的 格子 里 填 上 表明 地 
区 区 号 的 编码 .信封 到 了 邮局 后 ， 通 过 一 定 的 处 理 程序 ， 就 能 够 自动 地 用 机 器 而 不 是 人 识 
别 其 号 码 ， 并 根据 号 码 内 容 将 其 放 到 合适 的 位 置 而 达到 分 类 的 目的 。 在 这 个 分 信封 的 过 程 
中 ， 起 关键 性 的 数字 辨识 功能 就 可 以 用 神经 网 络 来 完成 。 不 过 神经 网 络 自身 仅 能 够 处 理 数 
据 ， 所 以 对 于 需要 神经 网 络 完成 的 任务 ， 都 必须 首先 将 其 转化 成 神经 网 络 所 能 够 接收 的 输 
人 和 输出 数据 。 即 使 对 邮政 编码 辨识 这 样 一 个 不 复杂 的 任务 ， 也 必须 先 对 信封 编码 部 位 进 
行 扫描 ， 并 对 图 像 进行 预 处 理 ， 将 含有 数字 的 部 分 用 点 阵 画 出 其 图 形 ， 产 生 一 定数 目的 比 
如 用 0 和 1 数字 表示 的 数字 符号 的 数组 后 ， 才 能 将 其 送 人 神经 网 络 的 输入 端 进行 办 识 。 实 
际 上 ， 任 何 一 个 实际 应 用 问题 ， 都 有 一 个 将 其 转化 成 神经 网 络 所 能 够 接受 的 数据 的 转化 问 


一 150 一 





题 ， 这 种 转化 往往 并 不 是 一 件 容易 的 事 。 
本 例 则 是 设计 训练 一 个 神经 网 络 能 够 辨识 带 有 噪声 的 26 个 英文 字母 的 详细 全 过 程 。 


7.3.1 “问题 的 阐述 


设计 训练 一 个 神经 网 络 能 够 识别 26 个 英文 字母 ,意味 着 每 当 给 训练 过 的 网 络 一 个 表示 
某 一 字母 的 输入 时 ， 网 络 能 够 正确 地 在 输出 端 指出 该 字母 ， 那 么 很 显然 ， 该 网 络 记忆 住 了 
所 有 26 个 字母 。 神 经 网 络 的 训练 应 当 是 有 监督 地 训练 出 输入 端的 26 组 分 别 表示 字母 A 到 
乙 的 数组 , 能 够 对 应 出 输出 端 1 到 26 的 具体 的 位 置 . 首先 必须 将 每 个 字母 进行 数字 化 处 理 ， 
以 便 构 造 输入 样本 。 考虑 用 5 x 7 和 矩阵 的 布尔 值 可 以 清楚 地 表示 出 每 个 字母 ， 例如 字母 A 
和 了 分别 可 以 用 0 、!1 矩阵 表示 为 : 


letterA=[00100.. 
01010.. 
01010.. 
10001.. 
11111.. 
10001.. 
10001]?; 
letterZ =[11111.. 
00001.. 
00010.. 
00100.. 
01000.. 
11111]? 


每 个 字母 都 可 以 用 此 5 x 7 = 35 的 元 素 组 成 一 个 字母 的 列 矩阵 , 那么 26 个 字母 则 分 别 
由 表示 26 个 字母 的 输入 的 列 矩 阵 组 成 的 26 x 35 的 输入 矩阵 。 然 后 把 这 26 个 字母 送 入 变 
量 名 为 aiphabet 中 : 


alphabet = [letterA,letterB,letterC ,letterD,letterE,letterF,letterG,letterH letterIletterJ,.…. 
letterK ,etterLletterMletterN,etterO,letterP,letterQ letterR jetterS,letterT 
letterU ,letterV,letterW letterX ,letterY letterZ]; 


字母 的 表示 如 图 7.8 所 示 . 
另 一 方面 ， 因 为 目标 矢量 是 希望 在 每 一 个 字母 输入 时 , 在 26 个 字母 中 它 所 排 顺序 的 位 置 上 
输出 为 1 ， 而 在 其 他 位 置 上 的 输出 为 0 。 为 此 ， 取 目标 矩阵 为 对 角 线 上 为 1 的 26 x 26 的 
单位 阵 ， 可 用 以 下 MATLAB 命令 来 实现 : 
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targets = eye(26); 了 
所 有 以 上 关于 输入 和 输出 矢量 的 操作 都 写 进 名 为 probm 文件 中 备用 。 





图 7.8 用 5 x 7 和 抑 阵 表示 的 字母 A 和 也 


另外 一 个 很 重要 的 需要 考虑 的 因素 是 : 所 要 设计 的 网 络 应 当 具 有 抗 干扰 能 力 ， 即 设计 
出 的 网 络 应 当 能 够 处 理 噪声 。 具 有 在 由 一 定 不 规范 的 输入 情况 下 辨识 出 正确 的 字母 输入 的 
能 力 。 将 干扰 噪声 进行 数字 化 处 理 后 即 变 成 具有 平均 值 为 0~ 0.2 之 间 变 化 的 随机 值 。 


7.3.2 ”神经 网 络 的 设计 


(1) 网 络 结构 
所 设计 的 神经 网 络 需要 具有 35 个 输入 节点 和 26 个 输出 神经 元 . 采用 输入 在 ( 0 1) 范围 
的 对 数 $ 型 激活 函数 两 层 logsig/logsig 网 络 ， 这 种 网 络 对 0-1 型 布尔 值 是 相当 完美 的 . 网 络 
取 35-10-26 的 结构 隐 含 层 赁 经 验 取 10 个 神经 元 . 如 果 需 要 网 络 有 更 高 的 办 识 精度 ， 可 以 
再 增加 一 些 隐 含 层 神经 元 数 。 在 本 例 中 ， 其 辨识 训练 精度 对 于 无 噪声 的 err_goal 取 为 0.1 ; 
对 于 带 有 噪声 的 辨识 目标 误差 只 要 求 为 0.6 ， 此 目标 均 在 $ 000 次 训练 内 达到 
网 络 的 设计 是 为 了 使 其 输出 矢量 在 正确 的 位 置 上 输出 为 1, 而 在 其 他 位 置 上 输出 为 0 . 
然而 ， 噪 声 输入 矢量 可 能 导致 网 络 的 1 或 0 输出 不 正确 ， 或 出 现 其 他 输出 值 。 所 以 为 了 使 
网 络 具 有 抗 干扰 能 力 ， 在 网 络 训练 后 ， 再 将 其 输出 经 过 一 层 竞 争 网 络 天 数 competm 的 处 
理 ， 使 网 络 的 输出 只 在 最 接近 输 人 值 的 输出 位 置 输出 为 1 ， 保 证 在 其 他 位 置 输出 均 为 0 。 
(2 ) 初始 化 


Prob.m 

P= alphabet % alphabet = [ letterA, letterB, ,letterZ ]; 
T=targets;  %targets = eye(206); 

[R,Q] = size(P); 

Sl1 = 10; 

[S2,Q] = size(T); 

[FwW1B1H = nwlog(SLR); 

[WwW2,B2] = rands(S2,S1); 
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(3) 网 络 训练 

为 训练 一 个 网 络 ， 使 其 本 身 就 具有 抗 噪声 的 能 力 ， 最 好 的 办 法 是 训练 一 个 具有 “理想 
加 噪声 ”输入 矢量 的 识别 网 络 。 我 们 首先 训练 一 个 具有 较 低 误差 平方 和 的 具有 理想 输 人 的 
网 络 ， 以 便 后 面 作 比较 用 。 然 后 ， 用 十 组 “理想 加 随机 噪声 ”的 输入 矢量 训练 神经 网 络 . 
每 一 次 训练 后 的 权 矢 量 作为 下 一 组 输入 矢量 训练 的 初始 值 。 训 练 具 有 噪声 的 输入 矢量 是 通 
过 在 对 两 组 无 噪声 矢量 训练 的 同时 ， 加 上 两 对 带 有 随机 噪声 输入 矢量 来 实现 的 ， 这 主要 是 
为 了 保持 网 络 同时 具有 对 理想 输入 分 类 的 能 力 。 

即使 这 样 ， 在 上 述 神经 网 络 训练 后 ， 也 可 能 出 现 神经 网 络 虽 能 够 辨识 出 带 有 噪声 的 字 
母 的 正确 位 置 ， 但 这 却 是 以 牺牲 理想 无 噪声 输入 辨识 的 正确 性 作为 代价 的 ， 换 句 话 说， 此 
时 网 络 可 能 出 现 对 理想 无 噪声 输入 辨识 错误 的 可 能 性 。 为 此 ， 应 将 网 络 以 训练 后 的 权 矢 量 
作为 初始 权 值 ， 对 无 噪声 输入 再 进行 训练 ， 以 此 来 保证 网 络 以 对 理想 输入 输出 的 正确 性 ， 

上 述 的 所 有 设计 训练 思想 均 在 下 面 的 程序 中 体现 出 来 ， 其 中 的 网 络 训练 都 是 用 自 适 应 
学 习 速 率 及 附加 动量 法 的 函数 trainbpx.m 进行 的 。 

1 ) 无 噪声 字母 识别 网 络 的 训练 程序 : 


disp_freq = 20 

max_epoch = $000;， 

err_goal = 0.1; 

tr= 0.01; 

lr_inc = 1.05; 

lr_dec = 0.7; 

Imomentum = 0.95; 

err_ratio = 1.04; 

TP = [disp_freq max_epoch err_goal Ir lir_inc lr_dec momentum er_ratio]， 
[W1,Bl,W2,B2,epochs,TR] = trainbpx(W1,Bl, "logsig W2,B2, "logsig',P,T,TP); 


训练 结束 后 应 当 将 训练 好 的 网 络 权 矢 量 存 人 一 个 适当 数据 文件 .mat 中 ， 以 备 网 络 运行 
时 用 ， 或 与 后 面 带 有 噪声 的 网 络 性 能 作 比 较 时 用 : 


Save networkl1.mat W1 B1 W2 B2 


2 ) 具有 噪声 的 输入 矢量 识别 网 络 的 训练 : 

为 了 获得 一 个 对 吧 声 不 做 的 网 络 , 我 们 首 计 纺 -不 中 用 商 明 运 类 本 大 括 是 Da 
加 上 两 组 带 有 了 噪声 的 输入 矢量 ， 目 标 矢 量 为 4 组 期 望 矢 量 targets ， 噪 声 矢 量 为 均值 为 0.1 
到 0.2 的 随机 噪声 。 这 人 迫使 网 络 学 习 适 当地 对 含有 了 噪声 的 字母 进行 正确 的 识别 ， 不 过 要 求 
是 对 理想 的 输入 矢量 仍然 能 够 有 正确 的 响应 。 

对 具有 噪声 的 训练 ， 最 大 训练 次 数 减 到 300 且 误 差 目 标 增加 至 0.6 。 由 于 有 含有 噪声 
在 内 的 较 多 输入 矢量 ， 其 输出 误差 较 高 也 是 正常 的 . 
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Imax_epoch = 300; 
eIT 三 0.6; 
= [disp_freq max_epoch err_goal ir ir_ inc ir_dec momentum err_ratioj; 
for train = 1:10 
P = faiphabet alphabet .… “ 
alphabet + randn(R,Q)*0.1)，.… 
alphabet + Tandn(R,Q)*0.2),，.… 
工 ={f targets, targets,targets, targets, targets ]; 
[Wi,B1,W2,B2,epochs,TR] = trainbpx(W1,Bl, "logsigW2,B2,1ogsig' ,P,TTP); 


本 


end 


网 络 训练 完成 后 ， 有 必要 再 用 理想 的 无 虽 声 输 人 矢量 对 网 络 再 训练 一 次 ， 以 保证 网 络 
能 够 准确 无 误 地 识别 出 理想 的 字母 ， 最 终 的 训练 结果 应 存 人 另 一 个 数据 文件 network2.mat 
中 ,作为 将 要 被 使 用 的 网 络 权 矢量 . 

4 ) 系统 的 性 能 测试 

用 神经 网 络 进行 模式 识别 的 可 靠 性 ， 可 以 通过 使 用 上 百 个 具有 随机 噪声 的 输入 矢量 来 
测试 网 络 而 获得 . 我 们 对 所 设计 的 神经 网 络 输入 任意 字母 ， 并 在 其 上 加 入 具有 平均 值 从 0.1 
~ 0.2 的 噪声 ,由 此 随机 产生 100 个 输入 矢量 ,通过 网 络 识别 后 输出 , 如 同 前 面 已 经 说 过 的 ， 
为 了 增强 网 络 的 抗 干扰 能 力 ， 网 络 在 使 用 时 ， 其 后 应 再 加 上 一 个 竞争 网 络 ， 以 使 网 络 对 每 
一 个 字母 的 输出 只 有 一 个 位 置 为 1 ， 其 他 元 素 均 为 0 。 用 于 性 能 测试 的 主要 程序 如 下 : 


R,Q] = size(alphabetb; 
{S2,Q] = size(targets); 


load network2.mat 色 取 训 练 好 的 网 络 权 和 矩阵 值 
network = [ ]; 多 初始 化 测试 变量 
Inax_test= 100; : 


noicse_range = 0:0.02:0.2 
for noiselevel = noise_range 
error = 0; 
fori = 1:max_test 
P =alphabet +randn(R,Q)*noiselevel; 
A=logsig(W2+logsig(W1*P,B1)B2); 
AA= = compet(A); 、 
err= er + Surm(Sum(abs(AA- targets)))/2; 
end 
metwork = [ network erroYmax_tesVQ ]; 
end 
plot(noise_range,network#100); 
ylabel(Percentage of Recognition Errors )， 
xiabel(C'Noise Level/)， 





由 程序 可 以 看 出 ， 测 试 结 束 后 ， 绘 制 了 辨识 的 出 错 百 分 比 。 为 了 对 比 起 见 ， 我 们 在 渊 
试 同时 加 进 了 对 用 无 噪声 的 理想 字母 训练 的 字母 辨识 神经 网 络 的 测试 ， 并 也 画 出 了 用 其 办 
识字 母 的 出 错 率 ， 测 试 和 作 图 程序 与 带 噪声 的 上 述 程序 完全 相同 。 两 者 的 比较 如 图 7.9 所 
示 ， 图 中 实 线 代 表 用 无 噪声 训练 的 网 络 的 辨识 出 错 率 。 虚 线 为 带 有 了 曲 音 训练 出 的 网 络 情况 ， 
由 图 中 可 见 ， 两 网 络 都 有 一 定 的 抗 干扰 能 力 ， 在 平均 值 为 0~ 0.1 之 间 的 噪声 的 影响 ， 都 能 
饶 几 乎 100% 地 准确 无 误 的 辨识 出 ,而 在 较 大 的 噪声 出 现 后 ， 比 如 0.1 ~ 0.2 之 间 ， 理 想 网 络 
明显 比 带 噪声 训练 网 络 的 出 错 率 要 高 出 许多 ， 在 平均 噪声 为 0.2 的 情况 下 ， 带 噪声 的 网 络 
的 出 错 率 仅 为 3.45%， 而 它 的 对 比 结果 却 达到 4.8%。 





下 


.Percentage of Recognition 
引 
1 
划 记 六 二 





0.05 
Nolse Level 


图 7.9 “字母 辨识 的 出 错 率 


如 果 需 要 更 高 的 扒 识 精度 ， 可 以 将 网 络 的 训练 时 间 加 长 ， 使 其 训练 误差 精度 更 高 ， 或 
增加 网 络 隐 含 层 中 的 神经 元 数 。 另 外 也 可 以 增加 输入 矢量 的 分 辨 率 ， 比 如 采用 10 x 14 点 
阵 。 如 果 需 要 对 较 高 噪声 含量 有 更 好 的 识别 率 ， 也 可 以 在 训练 时 就 加 大 对 噪声 的 含量 .图 
7.10 给 出 了 三 种 情况 下 的 字母 Y 的 表示 : 

1 ) 理想 的 字母 Y; 可 

2 ) 具有 均值 为 0.1 噪声 情况 下 的 字母 立 ; 

3 ) 具有 均值 为 0.2 噪声 情况 下 的 字母 Y 





(a) 性 想 字母 Y 人) 只 声 为 0.1 时 的 Y \、 (e) 噪声 为 02 时 的 了 
图 7.10 三 种 情况 下 的 字母 Y 


本 例 表 明了 一 个 简单 的 模式 识别 系统 是 如 何 被 设计 和 实现 的 。 由 此 可 见 ， 其 训练 过 程 
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不 是 用 几 个 单一 个 训练 函数 就 能 解决 问题 的 。 最 后 解 出 的 网 络 性 能 的 好 坏 ， 主 要 还 是 在 于 
设计 人 员 对 问题 的 认识 ,设计 思想 以 及 运用 MATLAB 工具 箱 的 能 力 . 有 了 工具 箱 ,可 以 使 
我 们 从 繁 开 的 编程 中 解放 出 来 ， 而 把 精力 集中 在 更 好 地 解决 问题 和 提高 网 络 的 性 能 上 。 高 
性 能 、 可 靠 性 以 及 易 实 现 性 才 是 解决 任何 问题 的 最 终 目 标 ， 我 们 看 重 的 正 是 工具 箱 对 我 们 
实现 目标 有 极 大 的 帮助 ， 才 值得 去 掌握 它 .。 一 旦 掌握 它 ， 则 能 为 我 们 很 好 地 服务 。 


4 用 自 组 织 竞争 网 络 优化 模糊 神经 网 络 的 结构 与 参数 


神经 网 络 与 模糊 逻辑 控制 相 结合 的 研究 已 受到 人 们 的 广泛 注意 ， 通 过 神经 网 络 所 实现 
的 模糊 逻辑 控制 器 的 结构 具有 模糊 逻辑 推理 功能 ， 同 时 网 络 的 权 值 也 具有 明确 的 模糊 逻辑 
意义 。 以 此 方式 ， 用 各 自 的 优点 弥补 对 方 的 不 足 ， 可 以 达到 最 佳 的 设计 效果 ， 不过， 不 论 
采用 何 种 训练 方法 ， 所 获得 的 权 值 ， 仅仅 是 模糊 神经 网 络 结构 在 事先 固定 的 情况 下 的 最 优 ， 
代表 模糊 标记 ( 即 : 正 小 、 负 大 等 等 ) 的 权 值 的 数目 是 由 设计 者 在 训练 之 前 就 已 选 定 ， 而 这 个 
数目 为 多 少 经 常 是 根据 设计 者 的 经 验 或 是 由 误差 精度 的 要 求 来 确定。 很 明显 很 难 选 得 一 个 
最 优 值 ， 或 称 最 小 值 : 若 此 模糊 标记 的 数 选 得 太 小 ， 则 很 难 达到 期 望 的 目标 ; 若 选 得 太 大 ， 
网 络 输出 层 的 模糊 控制 规则 数 将 以 指数 形式 地 增加 ， 这 必然 造成 庞大 的 网 络 结构 ， 给 权 值 
的 训练 及 网 络 的 实现 均 带 来 不 便 。 

本 节 给 出 一 种 解决 此 问题 的 设计 方法 ,采用 MATLAB 环境 下 的 神经 网 络 工具 箱 进 行 全 
过 程 的 设计 。 这 是 一 个 较为 复杂 的 综合 应 用 ， 算得 上 是 一 个 较为 深入 的 学 术 研 究 。 其 目的 
是 为 了 使 读 着 有 机 会 接触 体会 一 下 作为 一 项 科研 应 用 ， 应 当 如 何 去 考 虑 问题 ， 如 何 去 解 决 
问题 ， 以 及 在 解决 问题 的 过 程 中 的 思路 、 方法 和 手段 等 。 当 然 ， 更 为 主要 的 目的 是 深入 了 
解 MATLAB 环境 下 的 神经 网 络 工具 箱 的 灵活 应 用 。 

本 应 用 研究 的 设计 思想 是 : 为 了 获得 同时 具有 最 佳 结构 和 参数 的 模糊 神经 网 络 

( Euzzy-Neural Network, 简 称 FENN ) ， 运 用 自 组 织 竞争 神经 网 络 ( Self-organization 
Competition Neural Network， 简 称 SCNN ) 来 优化 网 络 结构 。 其 设计 过 程 分 成 三 步 : 

1 ) 设计 一 个 具有 较 多 权 值 的 模糊 神经 网 络 ， 人 (比如 选 7 和 ， 然 后 ， 
通过 训练 来 优化 其 权 值 ; 

2 ) 先天 模 由 神经 网 络 中 代表 模 灶 未 属 函 才 的 权 值 (包括 信 直 作为 自 组 织 竞争 神经 网 络 
的 输入 矢 章 。 通 过 该 网 络 的 竞争 与 训练 过 程 ， 将 这 些 输入 矢量 的 相同 的 类 别 自动 组 合成 若 
干 组 ， Ce 以 此 方式 将 模糊 标 
记 的 数目 减少 到 最 小 ; 

3 ) 重新 训练 由 2 ) 竞争 出 的 最 小 模糊 标记 的 FNN 权 值 ， 以 获得 具有 最 佳 网 络 结构 和 
最 佳 参数 的 模糊 神经 网 络 系统 。 

作为 应 用 研究 , 下 面 详细 讨论 一 个 色 本 过 训 争 神经 网 络 处 理 的 FNN 控制 器 的 设计 与 训练 
效果 对 比 的 过 程 。 FNN 控制 器 所 应 用 的 被 控 对 象 为 一 个 具有 高 度 非 线性 摩擦 力 影响 的 直 
流 伺服 系统 。 本 节 除 了 涉及 到 神经 网 络 理论 与 应 用 外 ， 还 涉及 到 有 关 模 糊 逻 辑 控制 以 及 遗 
传 算法 等 应 用 . 读者 在 理解 设计 原理 的 基础 上 ， 应 着 重 掌握 对 工具 箱 的 灵活 应 用 之 处 。 
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7.4.1 ENN 控制 器 的 设计 


首先 ， 设 计 一 个 具有 7 个 模糊 标记 ， 即 具有 49 个 控制 规则 的 FNN 控制 器 ， 网 络 结构 
如 图 7.11 所 示 。 可 以 看 出 它 是 一 个 具有 输入 层 、 中 间 层 和 输出 层 的 三 层 神 经 网 络 . 在 功能 
上 ， 该 网 络 的 三 层 节点 是 严格 对 应 于 模糊 届 辑 控制 的 模糊 化 、 规 则 推理 和 逆 模 糊 三 个 步 又 
的 ， 因 而 具有 明确 的 模糊 逻辑 意义 。 首先 ， 网 络 输入 变量 为 误差 e 和 误差 变化 ec ; 其 次 ， 
输入 层 节点 的 激活 函数 代表 的 恰 为 模糊 变量 的 隶属 函数 。 该 层 的 权 值 W 久 和 误 的 不 同 也 就 
意味 着 变化 多 端的 隶属 函数 的 形状 和 位 置 ， 该 层 的 输出 40) 代表 的 就 是 模糊 化 的 结果 一 一 
隶属 度 。 再 者 ， 中 间 层 是 将 模糊 化 得 到 的 隶属 度 两 两 相 乘 的 功能 。 中 间 层 的 输出 代表 着 模 
糊 规则 的 规则 强度 ， 将 这 些 强 度 传递 给 下 一 层 就 可 以 进行 逆 模 类 了 。 最 后 ， 输 出 层 的 各 个 
权 值 W 代表 了 模糊 规则 ， 根 据 重心 法 的 逆 模 糊 方 式 ， 只 要 将 它们 作为 权 值 与 输入 ， 即 规 
则 强度 加 权 求 和 ， 输 出 即 为 模糊 控制 的 输出 量 。 此 处 采用 的 模糊 推理 方式 为 代数 积 - 加 法 
-重心 法 ， 





7.11 模糊 神经 网 络 控制 器 的 结构 图 


FENN 的 输入 /输出 关系 如 下 : 
王 =[e ec]” 
a 久 =exp[- (W 儿 . 蕊 + 的 )2] (7.15) 
Ca 人 =4 人 。 C 亿 =exp{- [( 取 全 “ X1L 十 ml1)2 +( 了 由 “ X2 十 Bn2)2]} (7.10) 
&= 信 02) .4AO) = Z CO .死人 (7.17) 
天 =1 
其 中 | = 12 7; 请 帮 有 = 12,rl1， = 1,2…rl x mrl 为 模糊 标记 数 。 如 果 脱 离 具 
体 的 神经 网 络 结 构 ， 而 直接 采用 乘法 - 加 法 - 重心 法 的 推理 方式 和 正 态 隶 属 函 数 同样 可 以 
得 到 如 上 公式 。 之 所 以 如 此 ， 是 因为 经 过 这 样 的 从 模糊 逻辑 到 神经 网 络 结构 的 映射 和 结合 ， 
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即 可 将 模糊 逻辑 的 最 重要 的 参数 一 一 隶属 函数 的 形状 和 位 置 ， 以 及 模糊 规则 转化 成 了 神经 
网 络 的 权 值 ， 这 样 就 可 以 利用 神经 网 络 的 自学 习 、 自 适应 能 力 来 修正 和 优化 它们 ， 也 就 可 
以 达到 优化 模糊 逻辑 控制 效果 的 目的 了 。 

因为 在 后 面 的 网 络 设计 包括 应 用 中 都 要 多 次 用 到 上 面 的 公式 运算 ， 而 在 神经 网 络 工具 
箱 中 并 没有 现成 的 程序 可 以 调用 。 所 以 有 必要 将 其 编 成 子 程序 以 供 随时 调用 。 
(1 ) (7.15) 式 的 编程 
我 们 不 妨 将 由 (7.15) 式 表示 的 高 斯 型 隶属 王 数 的 计算 过 程 写 进 gause.m 的 MATLAB 郴 


数 中 : 
fonction a = gause(n,b) 人 % 计算 高 斯 型 未 属 函 数 
过 nargin < 1 1nargin > 2 色 检查 输入 矢量 的 个 数 只 能 为 1 或 2 个 ， 
emror( Wrong number of arguments” )》 多 它们 分 别 表示 加 权 输 入 和 n 和 偏差 
b， 
end % 不 满足 输入 个 数 要 求 时 显示 出 错 ， 
过 nargin==1 
Z = ni 


else 
[nrnc] = size(n); 
Z=n+byones(1nc); : 
a = eXP(-Z.#Z); - 色 计算 高 斯 型 隶属 函数 
i= find(~finite(a)); 
ai) = Sign(zGD); 
end 


(2 ) (7.16) 式 的 编程 
(7.16) 式 是 对 两 输入 进行 乘法 规则 的 运算 ， 同 样 也 没有 现成 的 程序 可 用 ， 应 当 将 其 编写 
成 一 个 MATLAB 函数 以 备 调用 : multim 。 注意 输入 变量 ecc 是 顺序 排列 的 表示 隶属 度 的 
输出 4: 的 列 项 量 . 


function uc= multi(Aeec) 狗 函数 名 与 输入 、 输 出 变量 名 multim 、 Aeec 、 uc 
% 
[ps,pq] = Size(Aeec); % 求 出 输入 的 行 和 列 数 
pn = ps/2; 多 求 出 两 输入 变量 的 个 数 
pe =[eye(pn) zeros(pn)]*Aeec; 多 制作 两 两 相 乘 的 矩阵 
pec = [ zeros(tempn) eye(pn)]*Aeec; 
pec=pec ， 
pa= Pe(:1)#pec(1,); 多 计算 矩阵 的 乘积 
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Auc = pa(1,): % 制作 Auc 矩阵 
fori=2:pn 

Auc = [Auc pa(i,:)]; 
end | 


forj= 2:pq % 制作 Aucj 矩阵 
pa = pe(:j)*pecd,:); 
Aucj = pa(1,); 
fori= 2:pn 
Aucj = [Aucj pai,)]; 
end 
Auc = [Auc;Aucj]; 
end 


Auc=Auc'′ ; 儿 最 后 的 结果 
end 


最 后 ，(7.17) 式 可 以 简单 的 采用 线性 函数 Purelin.m 获得 。 

要 想 对 具有 图 7.11 所 示 的 模糊 推理 结构 的 神经 网 络 进行 网 络 的 优化 训练 , 所 遇 到 的 困 
难 是 : 用 于 训练 的 期 望 输入 /输出 数据 是 未 知 的 。 因 为 网 络 的 输出 就 是 希望 获得 的 控制 量 . 
这 个 值 如 果 已 知 的 话 ， 那 么 我 们 的 设计 任务 就 已 经 完成 . 为 了 对 网 络 的 参数 真正 进行 优化 
训练 ， 求 出 最 佳 神经 网 络 控制 器 ， 可 以 采用 将 神经 模糊 控制 器 与 被 控 对 象 串 联 ， 并 连接 成 
闵 环 负 反 馈 回路 而 形成 一 个 控制 系统 ， 通 过 给 予 闭环 系统 一 个 参考 输入 ， 以 参考 输入 与 闭 
环 系统 输出 之 差 的 平方 为 最 小 作为 期 望 的 性 能 指标 来 对 神经 模糊 控制 器 进行 参数 调整 与 
训练 。 0 

为 了 达到 此 目的 ， 必 须 先 对 被 控 对 象 进 行 模型 辨识 ， 然 后 才能 进行 控制 器 参数 训练 . 
即 整个 控制 器 的 设计 过 程 如 图 7.12 所 示 ， 





图 .712 优化 系统 结构 图 
为 此 必须 先进 行 对 被 控 对 象 模型 的 网 络 NNP 训练 以 便 用 于 控制 器 的 训练 中 . 
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7.4.2 ”被 控 对 象 模型 的 辨识 
被 控 对 象 是 一 个 具有 严重 非 线性 摩擦 力 影 响 的 直流 伺服 电机 。 它 的 电流 型 输入 /输出 模 
型 结构 图 如 图 7.13 所 示 . 





图 7.13 ”被 控 直 流 电机 方 框图 
图 7.14 是 实际 所 测 的 直流 电机 的 输入 /输出 特性 图 . 从 中 可 以 看 出 电机 中 存在 着 严重 非 
线性 摩 氛 力 影响 。 其 非 线 性 摩擦 力 的 模型 为 图 7.15 所 示 形 状 。 


torque(Nm) 





,中 > 
0 10 20 . 
timef(s) 


图 7.14 ”被 控 过 程 的 输入 V 输出 数据 





图 7.15 “” 静 动 摩擦 力 模型 
由 于 非 线性 摩擦 力 的 影响 ， 当 采用 参数 辨识 方法 所 获得 的 线性 模型 ， 并 以 其 设计 出 的 


常规 控制 器 在 对 零 附近 的 低速 信号 或 经 常 变 向 信号 进行 跟踪 时 ， 总 是 出 现 较 大 的 跟踪 误差 
而 不 能 满足 高 精度 的 性 能 要 求 . 为 此 我 们 采用 人 工 神经 网 络 进行 非 线性 的 模型 的 输入 / 答 出 
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特性 的 建 模 训练 。 为 了 得 到 动态 特性 的 辨识 ， 特 采用 带 有 输出 一 阶 延 迟 回馈 的 前 向 网 络 。 
网 络 内 部 结构 分 别 采 用 的 是 S 型 和 线性 激活 函数 , 并 通过 实验 选取 五 个 隐 含 节点 ,如 图 7.16 
所 示 。 网 络 有 如 下 的 关系 : 

Oi=j(Wwo .P+BO)= FEZw 凡 . 厅 +b 几 )， =12…5 (7.19) 


5 
ab)= /| 也 mw) .coi +2O)] (07.19) 





图 7.16 “用 于 辩 识 的 人 工 网 络 的 结构 图 


在 进行 输入 /输出 特性 辨识 之 前 , 必须 对 实际 被 控 对 象 进行 输入 /输出 数据 测试 并 存 人 . 严 
文件 中 作为 神经 网 络 函 数 逼近 的 输入 矢量 和 目标 矢量 对 。 对 于 用 计算 机 控制 的 系统 首先 还 
要 选择 采样 周期 。 在 本 例 中 所 选取 的 采样 周期 为 0.005 秒 ， 采 样 时 间 为 20 秒 .。 这 样 可 获得 
4000 的 采样 数据 ， 但 对 于 网 络 训练 不 能 采用 如 此 多 的 数据 ， 一 是 没有 必要 ， 二 是 费时 ， 所 
以 在 程序 中 要 做 适当 的 处 理 。 本 例 中 将 由 图 7.14 中 所 获得 的 被 控 过 程 的 输入 / 输出 数据 存 
人 datap.mat 中 , 其 中 输入 变量 为 ip1, 输出 变量 为 outl . 另外 为 了 能 够 直接 算出 物理 量 ( 即 
图 7.14 中 所 表 出 的 输入 力矩 Nm ) ， 同 时 也 是 为 了 使 样本 小 于 1 ， 在 程序 中 乘 了 一 个 根据 
实际 系统 获得 的 比例 因子 kl = 2.4015*10”(Nmydigib。 人 /输出 特性 
建 模 的 程序 ， 取 名 为 Plantpv.m 。 


色 plantv.Im 和 文件 名 

多 被 控 对 象 进行 输入 /输出 特性 建 模 

明 

clf reset 

pausetime = 0.1; - 

load datapv.mat % 装载 ml 和 outl ， 
kl = 0.000024015; in = inl1# kli; 2 in1=17000*sin(0.2*pi*x0.005:0.005:20); 
out=outl/2^15; % 因 计 算 机 中 采用 的 是 16 位 DA 板 ，,… 
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% 多 故 用 1/2^15 将 输出 限制 在 1 以 内 ， 


X11 = in(1:S0:4000); : - 色 取 80 个 数据 对 

X21 = out(1:$0:4000); 

了 = [XIL′;X21′ % 根据 图 7.16 构造 训练 网 络 用 输入 /和 输 
出 对 

T=X21′ ; 

plot(P,T,” + ) 多 作 训练 图 


title(′ Training Vectors ′ ); xlabel(/ Input VectorP ′ ); ylabel(′ Target Vector 工 ”)) pause 


民 ,Q] = size(p); 

[S2Q] = size(T); ， ， 
S1 = 5; . 狗 采 用 5 个 隐 含 节点 
[W10,B10] = nwtan(SLRJ ， 色 采用 N-W 初始 条 件 


W20=rands(S2,S1)*0.5; 
B20 = rands(S2,1)*0.5; 


plotP,purelin(W20*tansig(W10*P,B 0 % 绘制 初始 权 值 时 的 输入 /输出 特性 
pause2(pausetime); % 设置 暂停 时 间 

hold on “多 保持 图 形 不 被 擦 除 

h = get(gca Children ′ ); 

h = hl); 


disb_fred= 10; 《 1 
max_epoch = 2000; 本 

err_goal = 0.001; - ; 

ir=601; jr inc = 1.05; lr_dec = 0.7; 

etr_ratio = 1.04; 证 


TP = [disp_freq max_epoch err_goal irlr_inc lr_ dec err_ratio]; 
fops(0); % 采用 带 自 适 应 速率 的 反 向 传播 法 进行 权 值 训练 
[WwW1.B1,W2,B2,epoch,TR] = trainbpa(W10.B10,” tansig 人 卫 ,TTP); 


totalflops = flops; 以 下 程序 显示 训练 结果 并 作 图 
delete(h) 

h = plot(BP,purelin(W2*tansig(W1*P2,B1))B2) m”′ );pause % 训练 结果 图 
hold off ， 


plotlr(TR(2,:)); pause % 学 习 速 率 记录 曲线 
ploterrCTR(1,.)); pause 和 误差 记录 曲线 
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barerr(A2,T); pause 色 输出 误差 条 形 图 表 

SSE = sumsqr(T-purelin(W2*+tansig(W1*P,B1),B2)); 

fprintt(′ NEFINAL NETWORK VALUESxn “ ) 

WI1 

Bi 

W2 

卫 2 . 
save plant WL W2 B1 B2 % 存储 训练 后 的 权 矢 量 


fprintt(′ Trained for %.0f epochs\m / ,epoch) % 给 出 结论 
fprintf(′ Training took %.0f flopsNn ′ ,fiops); 
fprintt(′ Average of %.0f Hops/epochn ′ :round(totalflops/epoch)); 
fprintf′ Average of %.0f Hops/cycleNn ′ round(totalifiops/epocHMMQ)); 
fprintf(′ Sum squared error goal was %g\n ′ :err _goaD; 
fprintf(′ Final sum squared error is %gN\n ′ ,SSE); 
fprintf(′ Trained network operates: ′ ); 
让 SSE < err_goal 

disp(′ Adequately.′ ) 
else 

disp(′ Inadequately.′ ) 

end 


训练 后 所 得 的 网 络 与 实际 系统 的 输出 曲线 如 图 7.17 所 示 。 
1 ， 


@ 10 -20 


时 间 ( 秒 ) 
图 7.17 辨识 后 的 网 络 输出 与 实际 对 象 输出 
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7.4.3 ENN 控制 器 的 训练 


一 旦 对 被 控 对 象 的 神经 网 络 进行 训练 后 ， 则 可 以 按照 图 7.12 所 示 的 优化 系统 结构 图 对 
FNN 控制 器 进行 训练 。 由 于 FNN 不 再 是 一 个 标准 的 全 联接 网 络 ， 所 以 采用 BP 法 训练 参数 
的 速度 相当 慢 。 为 了 能 够 加 快 训练 速度 ， 同 时 避免 陷 人 局 部 极 小 值 ， 特 采用 改进 的 遗传 算 
法 进行 参数 调整 和 优化 ， 并 用 MATLAB 程序 来 实现 . 

首先 将 所 辨识 的 过 程 模型 与 待 求 的 神经 网 络 控制 器 相 昌 联 ， 并 形成 负 反馈 控制 回路 ， 
再 利用 改进 的 遗传 算法 进行 运行 仿真 ， 以 寻求 得 到 模糊 控制 中 的 优化 隶属 函数 和 控制 规则 
的 组 合 控制 效果 . 

定义 包含 所 求 变量 的 个 体 。 为 了 操作 方便 以 及 精度 的 需要 ， 采 用 实数 编码 ， 直 接 将 待 
处 理 的 权 值 逐 位 数字 地 顺序 排列 ， 并 转化 成 数字 字符 串 ， 形 成 解 的 个 体 。 由 N 个 个 体形 成 
种 群 , 适应 度 呈 采用 系统 的 期 望 输出 与 实际 系统 的 输出 之 差 的 平方 和 来 定义 ， 即 ; 


到 = 工序 人 = pu- yj 本 (7.20) 


其 中 ，i = 1, 2,. 和 N 为 种 群 中 的 个 体 数 《为 个 体 中 待 求 变量 孝 ， 优化 的 目的 是 使 
标 函 数 忆 达到 某 个 满意 的 指标 . 

在 遗传 操作 的 复制 过 程 中 ， 有 
式 补 齐 ， 以 保持 群体 交换 过 程 中 解 的 多 样 性 .为 了 确保 搜索 的 全 局 最 优 ， 在 进行 交换 操作 
前 ， 首 先 将 本 代 样 本 中 的 最 优 解 直接 进化 到 下 一 代 中 。 除 此 之 外 ， 每 个 个 体 均 按 一 定 的 比 
例 两 两 进行 多 位 或 一 位 相互 交换 ， 以 形成 新 的 个 体 。 复 制 中 新 增补 的 随机 个 体 ， 尤 其 在 经 
过 数 代 进 化 后 ， 与 次 优 个 体 交换 后 不 断 变化 出 的 新 个 体 ， 可 以 有 效 的 延缓 早熟 的 出 现 。 当 
进化 接近 最 优 解 时 ， 仅 由 交换 操作 产生 的 后 代 的 适应 值 可 能 不 再 比 它们 的 前 辈 更 好 ， 此 时 
将 某 一 位 置 的 自然 数 变 为 另 一 自然 数 (不 同 于 标准 GA 中 改变 某 一 位 置 上 的 数字 ), 目的 是 为 
了 增加 随机 性 ， 进 而 增加 多 样 性 。 另 外 ， 随 着 进化 代数 的 增加 ， 进 行 突变 的 比例 也 随 之 增 
加 ， 以 便 在 接近 最 优 解 时 的 群体 中 增加 更 多 的 新 个 体 。 突 变 比例 在 整个 搜索 过 程 中 由 0.05 
变化 到 0.12 . 

下 面 的 例子 可 以 很 好 的 说 明 交 换 操 作 和 变异 操作 的 过 程 。 例 如 : 个 体 中 两 个 变量 分 别 
为 0.5712_ 和 -1.2[327j， 当 它们 以 一 定 方式 被 选中 后 ， 取 后 三 位 小 数 进行 交换 ， 形 成 新 的 数 
0.5[32 了 和 -1.2712_， 然 后 通过 变异 操作 又 将 其 中 的 某 一 随机 数 ， 如 “ 2 ”， 即 0.5327 和 
-1.2712.， 变 异 成 “3 ”， 则 形成 新 一 代 个 体 中 的 变量 :0.5337 和 -1.3713.， 变 异 操作 在 越 
接近 最 优 慎 、 交 换 操 作 趋 于 一 致 而 不 再 有 变化 时 ， 越 能 体现 出 它 的 重要 性 。 

在 整个 系统 的 训练 中 ， 考 虑 到 实际 系统 模 数 转换 中 的 饱和 特性 ， 也 必须 在 软件 训练 过 
程 中 体现 出 来 ， 所 在 程序 中 设置 了 一 个 根据 实际 值 换算 出 的 饱和 限定 值 。 采 用 遗传 算法 进 
行 FNN 控制 器 权 值 训练 的 程序 如 下 。 


多 “finnga7.m % 程序 名 
% 采用 遗传 算法 训练 具有 7 个 隶属 函数 的 FNN 控制 器 权 值 的 程序 
9 
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Clear 
pausetime = 0.1; 
load plantmat 色 取 被 控 对 象 神经 网 络 的 权 矢 量 W1 W2, B1, B2 
k3=1，k4=1.; kS=1. 
名 =7; ns = fn*4+fn*fn; % 由 7 个 模糊 标记 计算 个 体 中 的 所 含 实数 编码 的 总 数目 ns 
TO0 = 0.005:0.005:20; 
in = 0.6104*kS*xsin(0.1*pi*sT0); ， 色 20000/32768 = 0.6104 

% 为 系统 所 能 跟踪 触发 的 最 大 幅 值 _ 
T= in(1:100:4000); 免 取 40 个 数 进 行 训练 
[S2,Q] = size(T); 旬 初始 化 
y= [zeros(1,Q)]; ee= zeros([1LQj; ec = zeros([1.Q]); P = zeros([2,Q]); 
Al10 = [zeros(2rfnQ)j; All = [zeros(f*yfnQ)]; A20 = [zeros(l,Q)]; A21 = [zeros(l,Q)]; 
SSE = fzeros(1N)];WB1 = fzeros(GN,ns)*2]， 
NWB = rands(Nns)#2; 


N=50 “多 取 种 群 数 
_forj = 1:100 免 开始 直至 100 代 的 遗传 进化 
SS = 0; 
fori = 1:N， % 求 50 组 种 群 


W10=INWBd1) ONWB(2) ONWB(3) ONWB(4) 0NWBG,5) 0;.… 
0NWB(i67)0NWB(,7);0NWB(8);0 NWB(i,9)0 NWBUt,10);.… 
0NWB(11);0NWB(i12);0NWB(,13);0 NWB(i,14)]; 

Bl10 = NWB(1SNNWB(16)NWB(17);NWB(18)NWB(i,19))NWB(20); 

”NWB(2lNWB(22)NWB(23);NWB(i24);NWB(i,25) 
NWB(i26);NWB(i27);NWB(i28)]; 

Wa20=[INWB(i29) NWB(i,30) NWB(i31) NWB(i32) NWB(i,33) NWB(i34)... 
NWB(35) NWB(i,36) NWB(i37) NWB(i38) NWB(i,39) NWB4 人 ,40)... 
NWB(41) NWB(42) NWB(i,43JNWB(i,44) NWB(i45) NWB(i46)... 
NWB(47) NWB(48) NWB(49) NWB(i,50) NWBG51) NWB(,52). 
NWB(LS3) NWB(54) NWB(i,SS) NWB(iS56) NWB(i,57) NWB(iS8)... 
NWB(G39) NWB(i,60) NWB(i,61) NWB(i,62) NWB(i,63) NWB(i,64).. 
NWB(65) NWB(i66) NWB(i67) NWB(i,68) NWB(i,69) NWB(i,70)... 
NWBG7I) NWB(72) NWB(73) NWB(i,74) NWBd,75) NWB(i,76).. 
NWB(,77)]; 

B20 = 0; 

CW1= W10; CB1 =B10; CW2 = W20; CB2 = B20; 


% 计算 闭环 系统 误差 总 和 SSE1 
[SSElyeeccm'A21] = errsqr(Q,T,CW1CW2,CB1LW1LW2,.B1,B2,k3,k4,k5); 
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Fd) = SSE1; 色 求 每 一 组 适应 度 值 
二 Fi) < 0.001,j = j-Lbreak,end 多 当 适 应 度 小 于 给 定 的 0.001 ， 停 止 进化 


SS = SS +FOD; - 多 求 50 个 种 群 适应 值 和 
end 
% 复制 操作 
AF = SS/N; :多 求 50 个 种 群 适 应 值 的 平均 值 
n=l nn=l minl=0; m = fzeros(1JD] mm = 1; min=1000; 
fori= 1:N， 多 寻找 记录 50 个 种 群 中 小 于 平均 适 冯 植 .AF 的 个 体 
dif= AF - FGD; 2 
让 dif >= 0， 
mn) 一 也 5 多 记录 个 数 n 和 
n=n+li 
minl = Fli) - min; % 寻找 本 代 最 优 (最 小 ) 适 应 值 本 
让 minl <= 0, min = Fi); nn=iend % 并 把 其 序号 保存 到 nn， 其 值 保 存 到 mir 
end 
end 
plot(F(:N))， 多 绘 出 本 代 中 50 个 适应 值 各 自 的 值 
pause2(pausetime)， : ， ! 


min 旬 显示 本 代 中 最 小 适应 值 


这 j 一 mm*y5,nj=j 多 每 5 代 显 示 一 次 网 络 输出 跟踪 目标 矢量 的 情况 
plot(IT ′ y″′]), pause2(Pausetime), plot([cm ′ :A21′ ]), pause2(pansetime) mm = mm+1; 
end ; 


% 交换 操作 4 

WB1(1:) =NWBn.) % 将 本 代 最 优 个 体 放 置 1 号 位 
fori=ln-l， 多 将 记录 中 低 于 平均 适应 值 的 个 体 从 2 号 位 起 顺序 排放 
WBlG+1.) = NWBtmGi),); 
end 


ifn > 3*N/4, s = 3+N/4; 多 只 取 4 少 于 S=3+MN/4 的 个 体 数 进行 海 尖 
else s = 也 ; 
end 


fori = s:N， 色 用 随机 值 补 齐 被 淘汰 的 个 体 
WBlG,:) = rands(l,ns)#2; 
enk 
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让 j <= 30, intwb = fx(WB1*10)/10，% 30 代 前 取 权 值 个 位 及 四 位 小 数 中 的 前 一 位 
else 计 j >30 色 j <= 60,intwb = fix(WB1l*100)/100; % 31~60 代 取 权 值 小 数 中 的 前 两 位 
else intwb = fix(WB1*1000)/1000; % 61~100 代 取 权 值 小 数 中 的 前 三 位 


end 
end 
poiwb = WB1l-intwb; 和 求 权 值 在 不 同 代 中 的 小 数 部 分 
NWB(i:) = WB1(1.); % 将 本 代 最 优 个 体 直接 进化 到 下 一 代 
for i = 2:N/2， % 将 2 到 N/2 与 N-l 到 N/2-1 的 个 体 之 间 的 权 值 的 小 数 … 
NWBG,:) = intwb(i,:) + poiwb(N+1-i:); 多 进行 交换 
end 


fori= 1 +N/2:N， 
NWB(i,:) = intwb(i-N/2,:)+poiwbG,:); 


end 
多 变异 操作 
这 j <= 40, 这 = N/2; % 选择 变异 的 频率 
else 这 j > 40 多 j <= 70, 冰 = fixGNY3); 锡 从 每 25 个 个 体 中 变异 一 次 增长 到 


else 计 j > 70 &j <= 100, ik = fixGV4); 狗 每 18 到 12 个 个 体 中 变异 一 次 
end 


end 

fori = S: 冰 :N， 

k = fx(rand*10); % 随机 取 一 个 9 以 内 的 加 数 

Imul = num2str(NWBG) 多 将 所 选 定 的 个 体 中 的 权 值 数码 中 与 随机 
Imu2 = strep(mul,” k/ ,” k-1 ); % 数 上 相同 的 数 变 为 kK- 1 


hh = sscanftmu2,” 2%f )”′ ; 
En,imj = size(hh); 
这 im<77,NWB(,:) = [hh 0.]; 
else NWB(,:) = hh;end 


end 
end 
end 
wbg7 = NWB(1,); % 取 最 佳 权 值 
save fpnwb7 wbg7 色 将 训练 结果 存 人 文件 fnhnwb7 中 
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从 上 面 的 程序 中 可 以 看 到 ， 调 用 了 另外 一 个 用 来 计算 闭环 系统 误差 总 和 SSE1 的 子 程 
序 : ermsqrm 。 这 个 程序 实际 上 是 计算 了 闭环 系统 的 前 向 回路 的 输出 ， 即 从 误差 到 系统 输 
出 的 计算 过 程 ， 是 体现 网 络 性 能 优 劣 的 关键 所 在 ， 是 系统 运行 的 核心 。 其 程序 清单 如 下 ; 


function [SSE1,y,e,ec,cm,A21] = errsqr(Q,T,W1,W2,B1PW10PW20.PB10.PB20k3k4,kS) 
e(1) = rand*#.01; ec(1) = rand#*.01; 了 = zeros([2.Q]); 


fork= 1:Q， 
PGCk) = [e(k)iecdo]， % 构造 输入 矢量 
Al0(C) = ovensigC(W1*P(: kk) 了 BT1); 匈 计算 FNN 神经 网 络 的 输出 A20 
All(Co = multi(A10CJo); 
A20(k) = purelin(W2*Al11(:,k)); 


A21Go = A20(O*k4; % 检查 所 计算 出 的 控制 量 是 否 正 向 饱和 
这 A21(o > 0.7869 
cm(k) = 0.7869; % 32768*0.000024015 = 0.7869 
elseif A21(k) < -0.7869 多 检查 所 计算 出 的 控制 量 是 否 负 向 饱和 
cm(k) = -0.7869; % 饱和 时 给 出 最 大 饱和 值 
else 
cm(k) = A21(; % 未 饱和 则 输出 计算 值 A21 
end 
Xp(:k)=[cm(o;TGk)]; % 构造 被 控 对 象 网 络 输入 矢量 
y(k) = kS*purelin(PW20*tansig(PW10*xp(:,k),PB10),PB20);  % 计算 系统 输出 值 
E(o = To - yGo); 色 计算 系统 输出 误差 值 
ec(k+l) = e(k; 和 计算 系统 下 一 时 刻 的 误差 值 
e(k+1) = 卫 (k)#k3; 
end 


SSE1 = sumsqr(E); 匈 计算 系统 的 误差 平方 和 


训练 结束 后 可 以 得 到 优化 后 的 FNN 权 值 。 这 是 一 个 具有 77 个 参数 的 人 工 神经 网 络 ， 
是 一 个 较为 庞大 的 网 络 。 此 时 的 权 值 优化 严格 地 说 是 在 模糊 标记 数 固 定 为 7 的 情况 下 的 
权 值 优化 ， 而 并 不 是 最 简 网 络 结构 下 的 优化 值 。 这 意味 着 在 相同 的 优化 指标 下 ， 有 可 能 
用 更 加 简单 的 网 络 来 实现 控制 器 的 设计 。 我 们 知道 FNN 的 权 值 数目 是 由 设计 者 事先 选 定 
的 模糊 标记 数 来 确定 的 .那么 如 何 求 得 这 个 最 少 模糊 标记 数 呢 ? 下 面 利用 竞争 网 络 来 实 
现 这 一 目的 . 
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7.4.4 ”采用 SCNN 优化 模糊 标记 数 与 性 能 对 比 


对 于 上 述 具 有 7 个 模糊 标记 的 模糊 神经 网 络 ， 在 总 共 77 个 参数 中 ， 有 28 个 权 值 和 仿 
差 代表 不 同 输 入 的 隶属 函数 。 它 们 可 以 被 分 为 两 组 : 一 组 由 误差 变量 e 的 7 个 权 值 和 7 个 
偏差 组 成 ， 另 一 组 包含 误差 的 变化 变量 ec 的 7 个 权 值 和 7 个 偏差 值 ， 现 在 将 这 两 组 数据 ， 
作为 SCNN 的 输入 矢量 已 。 竞争 层 的 节点 数 选 为 5 ， 最 大 循环 数 M = 500 ， 相 似 度 偏差 = 
9 . 在 对 输入 矢量 归 一 化 处 理 后 ， 开 始 进 行 竞 争 和 权 值 的 训练 ， 训 练 目标 是 使 相似 的 输 
人 矢量 聚 成 同一 类 型 以 达到 减少 输入 矢量 数组 的 目的 。 所 有 的 设计 与 训练 程序 均 由 
MATILAB 及 其 中 的 神经 网 络 工具 包 完 成 。 其 中 由 28 个 代表 不 同 输入 的 隶属 函数 的 权 值 和 
偏差 转化 为 SCNN 的 输入 矢量 尸 的 程序 为 peec7.m: 


% peec7.m 匈 文件 名 

% 将 FNN 网 络 权 值 W1 和 Bl 转变 成 变量 PE 和 PEC 

力 

load fnnwb7 

NWB = wbg7; 

PE= INWB(1,1) NWB(1,2) NWB(13) NWB(1,4) NWB(1,3) NWB(1.6) NWB(1.7); 

NWB(1,15) NWB(1,16) NWB(1,17) NWB(1,18) NWB(1,19) NWB(1,.20) NWB(1,21)]; 

PEC = INWB(1,8) NWB(19) NWB(1,10) NWB(L,11) NWB(1,12) NWB(1,13) NWB(1,14); 
NWB(l122) NWB(1,.23) NWB(1,.24) NWB(125) NWB(1,26) NWB(127)NWB(1,28)]， 

end 


而 进行 竞争 分 类 的 程序 必须 对 误差 e 与 误差 的 变化 ec 分 别 实施 ， 二 后 对 变量 误差 
进行 竞争 分 类 的 程序 compet7.m : 


% compet7.m 多 文件 名 
2 
clf reset 
Pausetime = 0.05; 
peec7 
P = normc(PE); 
[R,Q] = size(P); S = 5; 
% W0 = randnr(S,R); % 也 可 以 取 随 机 初始 值 
W0=[-0.7591 ”0.6449 多 一 组 较 好 的 初始 值 
0.9988 -0.0482 
0.7080 0.6982 
-0.7067 -0.6585 


-0.3425 0.9340]; 





plot(cos(0:.1:2*xpi),sin(0:.1:2*pi) --′ ) 过 % 作 输 入 矢量 图 
axis(′ equal ′ ) 

holdon 

PlotrvGP); ; 站 

h = plot(W0(,D ,WO0(C2)7 % 作 初 始 权 矢 重 图 
title (′. Input Vectors (lines) 人 Weight Vectors (+)” 

xlabel(′ P(Lq)  WG1) 

ylabel(′ PC9) Wi2) 


disp_freq = 10; max_cycle = S00，I = 0.05; 


色 在 不 作 图 的 情况 下 可 以 用 命令 : TP= [disp_freq max_cycle lr]; 
色 以 及 W =ainc(W0,P,TP); 来 完成 下 列 竞争 过 程 


W = W0; 

flops(0) 

LW = W; 

for cycle=1:max_cycle 


% PRESENTATION PHASE 
qd= fizxGand*Q) + 1; 
A = compet(W*P(:,q)); % 竞争 
i= find(A 一 1; % 利用 科 荷 伦 规则 进行 权 值 调整 
dW = learmk(W,P(,q)iln; 
W=W+dWi; 
temp = flops; 儿 显示 训练 过 程 
过 rem(cycle,disp_freq) == 
delete(h) 
h=plot(W(C,1) ,WCG2) + ); 
工 W = W; 
pause2(pausetime); 
end 
flops(temp); 
end 


totalflops = flops; 


pause 
hold off 
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fprintt mnFINALNETWORK VALUESA ); % 总 结 最 后 结果 
W 1 
fprintf(′ Trained for %.0f cycles\n ′ ;max_cycle) 
fprintft′ Training took 免 .0f flops\n ′ ,totalflops); 
fprintfK′ Average of %.0f flops/cycle\n ′ :round(totalflops/max 5 


YE = hardlim(W#P-.90) % 检验 输出 结果 


对 于 变量 误 关 变 化 的 竞争 ， 只 要 把 上 面 程序 中 的 变量 PE 改 为 PEC ， 重 新 运行 一 遍 程 
序 即 可 获得 结果 。 

图 7.18 给 出 了 竞争 和 训练 之 后 的 输入 与 SCNN 权 值 矢 量 的 分 布 图 . 其 中 “ 线 ” 表示 输 
人 矢量 ，“+” 代 表 权 值 矢量 值 ， 因 为 参数 被 归 一 化 处 理 ， 所 以 输入 矢量 具有 单位 模 数 ， 所 
有 的 输入 矢量 值 均 落 在 单位 圆周 上 .从 图 7.18 可 以 看 出 ，4 和 7 输入 矢量 ， 另 
外 ，5 个 权 值 矢 量 中 还 多 余 出 一 个 . 


Input Vectors(lines) 友 Weight Vectors(+) 


PC29) GE2 





0 
P019) 太公 访 
图 7.18 输 人 矢量 ( 线 ) 和 权 值 矢量 (+) 的 分 布 图 


按照 一 般 的 概念 ， 通 常 模糊 标记 的 数目 的 选择 是 单数 ; 且 最 小 数 应 当 取 3 : 负 、 零 和 
正 , 而 此 处 在 经 过 竞争 训练 后 为 什么 对 所 研究 的 问题 给 出 了 4 个 标记 数 ? 为 了 回答 这 个 问 
题 ， 同 时 为 了 比较 ， 对 具有 3 个 模糊 标记 数 的 模糊 神经 网 络 控制 器 也 进行 了 训练 设计 ， 同 
样 采用 改进 的 遗传 算法 优化 网 络 权 值 。 不 幸 的 是 ， 不 论 如 何 训练 网 络 ;不 能 达到 期 望 的 误 
差 值 ， 控 制 系统 也 不 能 跟踪 输入 信号 ， 图 7.19(a) 给 出 了 训练 后 所 得 到 的 一 种 情况 : 能 够 很 
好 地 跟踪 正 向 参考 输入 。 而 负 向 跟踪 产生 较 大 误差 时 的 隶属 函数 曲线 ， 图 7.19(0) 和 (c) 分 
别 为 模糊 标记 为 4 和 7 时 的 隶属 函数 曲线 。 比 较 三 者 可 以 看 出 ， 不 论 选取 几 个 模糊 标记 ， 
总 存在 一 条 平坦 的 素 属 函 数 曲线 ， 此 隶属 函数 是 用 来 克服 被 控 过 程 中 存在 的 非 线性 摩 所 
力 . 当 模糊 标记 数 为 3 时 ， 除 了 一 个 用 于 非 线 性 补偿 外 ， 只 剩 下 两 个 可 以 用 来 控制 动力 学 
特性 ， 很 明显 是 不 够 的 ， 从 图 7.19(a) 中 可 以 看 出 ， ec 中 只 有 一 个 正和 零 的 隶属 函数 ， 然 
而 没有 表示 负 的 隶属 函数 ， 所 以 系统 不 能 很 好 地 跟踪 负 向 信号 ， 而 当 模糊 标记 数 为 4 时 ， 
如 图 7.19(b) 所 示 , .一 个 用 来 消除 非 性 摩擦 力 ， 三 个 用 来 分 别 跟踪 负 、 零 和 正 向 信号 ， 以 达 
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到 最 佳 控制 效果 ， 当 模糊 标记 数 多 于 4 ， 那 么 多 余 的 素 属 函数 或 出 现在 3 个 主要 的 素 属 函 
数 附近 ， 或 协助 克服 非 线 性 ， 所 有 这 些 多 余 的 “曲线 ”， 均 能 通过 SCNNN 的 训练 而 被 4 条 


BA 


- -1 0 1 
-2 -1 0 1 2 
e ec 









(Ca) rl 为 3 时 的 隶属 函数 


EAIEAS 
[NAN 


2 






(b) rl 为 4 时 的 隶属 函数 
1 





(cirl 为 7 时 的 隶属 函数 
7.19 ”zl 的 素 属 函数 


“在 通过 SCNN 的 竞争 和 训练 后 ， 则 获得 晤 小 的 模糊 标记 的 数目 ， 然 后 ， 用 4 个 模糊 标 
记 重 新 构成 一 个 新 的 模糊 神经 网 络 ， 并 可 再 次 应 用 上 述 同 样 的 过 程 训 练 出 网 络 权 值 。 

图 7.20 给 出 速度 跟踪 系统 在 模糊 神经 网 络 控制 器 作用 下 ， 对 梯形 输入 信号 的 响应 ， 其 
中 ,图 7.20G) 则 通过 SCNN 训练 结果 获得 的 具有 4 个 以 及 原 有 7 个 模糊 标记 的 模糊 神经 网 
络 控制 器 的 响应 信号 ， 纵 轴 为 速度 ,单位 为 1 000 转 /分 钟 ; 图 7.20(b) 为 其 响应 误差 信号 ， 
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纵 轴 的 误差 单位 为 转 /分 钟 ， 横 轴 单 位 均 为 时 间 。 图 中 实 线 为 具有 4 个 模糊 标记 的 FENN 控 
制 器 的 误差 。 从 图 中 可 以 看 出 ， 两 个 控制 系统 具有 完全 相同 的 跟踪 输入 信号 能 力 ， 这 意味 
着 : 前 者 可 以 取代 后 者 ， 同 时 也 是 最 小 数目 和 最 简 结构 ， 因 为 当 其 数目 小 于 4 时 ， 模 糊 神 
经 网 络 控制 器 不 能 很 好 地 工作 。 所 以 可 以 说 ， 由 通过 SCNN 的 训练 所 获得 的 模糊 标记 数 所 
组 成 的 模糊 神经 网 络 结构 及 其 训练 出 的 权 值 具有 最 优 结构 与 权 值 。 





(a) (b) 
图 7.20 输入 信号 与 不 同情 况 下 的 控制 系统 响应 (a) 与 误差 信号 (b) 


下 面 只 给 出 绘制 模糊 标记 为 4 时 的 图 7.19(b) 中 的 隶属 函数 的 程序 。 


多 msft.m (fig7.19b) ” 文件 名 

% 绘制 具有 .4 个 模糊 标记 的 隶属 函数 图 形 

0 

load fanwb4 多 取 FNN4 的 权 矢 量 、 


T0 = 0.005:0.005:20; 

ip = 0.6104*sin(0.1*pi*TO); % 20000/32768 = 0.6104 给 出 系统 的 最 大 跟踪 量 

T= in(1:100:4000); 

e= -2:0.0$:2; [n,N] = size(e); ec = 6; 

P= [feiecj; 

NWB = fwb4; 

i= 1 

W1= INWBG,I) ONWB(2) ONWB(3) 0NWBG,4) 0;NWB(i,5) 0;… 

0NWB(6;0NWB(7);0 NWB(i8)]; 
Bl1 = INWB(i,9))NWBG,I0;NWBG,ID;NWB(i,12);NWBd,13);NWB( ,14); 
NWBG,I5);NWBG,16)]; 

WwW2= INWBGI17)NWB(i18) NWB(i,19) NWB(i20) NWB(,21).. 
NWB(i22) NWB(i23) NWB(i,24) NWB(,25).… 
NWB(26) NWB(27) NWB(i,28) NWB(i,29) NWB(i,30).… 
NWB(i31D NWB(32)]; 
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lfun = ovensig(W1*P.B1T); % 计算 隶属 函数 
plotlejlfun(1L))， % 绘制 误差 隶属 本 数 图 
hold on 

piot(e,lfun(2,:))， 

plotte,lfun(3,:))， 

plot(e,lfun(4,:))， 

hold off,pause， 


plotlec,lfun(5,:))， % 绘制 误差 的 变化 隶属 函数 图 
hold on 

plotlec,lfun(6,:))， 

piotlec,lfun(7,))， 

plot(teclfun(8,:))， 

hold 

end 


进一步 的 系统 性 能 比较 可 以 通过 对 相同 的 被 控 过 程 使 用 常规 控制 方案 来 加 以 对 比 。 图 
7.21 对 给 出 了 被 控 过 程 采 用 极点 配置 法 所 获得 的 PI 控制 器 , 在 相同 输入 信号 作用 下 的 误差 
响应 ， 其 中 ， 纵 轴 为 误差 信号 ， 单 位 为 转 /分 钟 。 从 中 可 以 清楚 地 看 出 : 虽然 FI 控制 器 对 常 
数 干扰 不 产生 误差 ， 但 被 控 过 程 中 所 存在 的 零 附 近 的 非 线性 摩擦 力 的 影响 ， 对 系统 的 响应 
产生 了 最 大 值 约 每 分 钟 180 转 的 误差 ， 而 从 其 对 比 结果 图 7.20(b) 中 可 以 看 出 : 其 最 大 误差 
只 有 约 每 分 钟 40 转 . 由 此 可 以 显示 出 FNN 控制 器 的 优 于 常规 控制 器 之 处 .当然 不 仅 如 此 ， 
我 们 的 研究 还 达到 了 FNN 控制 器 获得 了 结构 与 参数 的 双重 最 优 的 目的 . 
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时 间 ( 秘 ) 
图 7.21 常规 控制 器 对 图 7.20(a) 输 入 信和 号 的 响应 误差 
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附 录 MATLAB 神经 网 络 工具 箱 函 数 一 览 表 
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线性 网 络 设计 
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激活 函数 
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对 称 硬 限制 激活 函数 









绘图 


函数 名 











绘制 目标 模式 与 网 络 函 数 的 逼近 图 
绘制 网 络 学 习 速率 与 训练 次 数 的 关系 图 
绘制 感知 器 对 硬 限制 神经 元 的 训练 矢量 图 


绘制 始 于 坐标 原点 的 单位 模 长 矢量 线 









仿真 


函数 名 
霍 普 菲尔德 网 络 仿真 


网 络 训练 











trainbp 采用 反 向 传播 法 的 训练 


采用 感知 器 规则 的 训练 
采用 W-H 规则 的 训练 


[| 


名 
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